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为 什么 写 这 本 书 


随 着 大 数据 时 代 的 演进 ， 越 来 越 多 的 企业 在 搜集 数据 的 同时 ， 也 开始 关注 并 重视 数据 分 析 与 
挖掘 的 价值 ， 因 为 他 们 正 尝 到 这 项 技术 所 带 来 的 甜头 。 例 如 ， 通 过 该 技术 可 以 帮助 企业 很 好 地 认识 
其 用 户 的 画像 特征 , 为 用 户 提 供 个 性 化 的 优质 服务 , 进而 使 用 户 的 忠诚 度 不 断 提升 ; 通过 该 技术 提 
前 识别 出 不 利于 企业 健康 发 展 的 “毒瘤 ”用 户 〈 如 黄牛 群体 、 欺 诈 群 体 等 ) ， 进 而 降低 企业 不 必要 
的 损失 ; 通过 该 技术 可 以 为 企业 实现 某 些 核心 指标 的 判断 和 预测 ,进而 为 企业 高 层 的 决策 提供 参考 
依据 等 。 企业 对 数据 分 析 与 挖 据 技术 的 重视 就 意味 着 对 人 才 的 重视 , 这 就 要 求 希望 或 正在 从 事 数 据 
相关 岗位 的 人 员 具 备 该 技术 的 理论 知识 和 实战 能 力 。 

Python 作为 大 数据 相关 岗位 的 应 用 利器 ， 具 有 开源 、 简 洁 易 读 、 快 速 上 手 、 多 场景 应 用 以 及 
完善 的 生态 和 服务 体系 等 优点 ， 使 其 在 数据 分 析 与 挖掘 领域 中 的 地 位 显得 尤为 突出 。 基 于 Python 
可 以 对 各 种 常见 的 脏 数 据 完成 清洗 、 绘 制 各 式 各 样 的 统计 图 形 ， 并 实现 各 种 有 监督 、 无 监督 和 半 监 
督 的 机 器 学 习 算 法 的 落地 ， 在 数据 面前 做 到 游 妨 有余 ， 所 以 说 Python 是 数据 分 析 与 挖掘 工作 的 不 
二 之 选 。 根据 多 家 招聘 网 站 的 统计 , 几乎 所 有 的 数据 分 析 或 挖掘 岗位 都 要 求 应 聘 者 掌握 至 少 一 种 编 
程 语言 ， 其 中 就 包括 Python 。 

纵 观 国内 的 图 书市 场 ， 关 于 Python 的 书籍 还 是 非常 多 的 ， 它 们 主要 偏向 于 工具 本 身 的 用 法 ， 
如 关于 Python 的 语法 、 参 数 、 异 常 处 理 、 调 用 以 及 开发 类 实例 等 。 但 是 基于 Python 的 数据 分 析 与 
挖掘 书籍 并 不 是 特别 多 ， 关 于 这 方面 技术 的 书籍 更 多 的 是 基于 R 语言 等 工具 。 本 书 将 通过 具体 的 
实例 讲解 数据 的 处 理 和 可 视 化 技术 ， 同 时 也 结合 数据 挖掘 的 理论 知识 和 项 目 案例 讲解 10 种 常用 的 
挖掘 算法 。 

2015 年 9 月 ， 笔 者 申请 了 微 信 公 众 号 ， 取 名 为 “数据 分 析 1480”, 目前 已 经 陆续 更 新 了 近 200 
篇 文章 。 一 方面 是 为 了 将 自己 所 学 、 所 知 记录 下 来 ， 作 为 自己 的 知识 沉淀 ; 另 一 方面 是 希望 尽 自己 
的 微薄 之 力 , 将 记录 下 来 的 内 容 分 享 给 更 多 热爱 或 从 事 数据 分 析 与 挖掘 事业 的 朋友 。 但 是 公众 号 的 
内 容 并 没有 形成 系统 的 知识 框架 , 在 王 金 柱 老师 的 鼓励 和 支持 下 才 开 始 了 本 书 的 写作 , 希望 读者 能 
够 从 中 获得 所 需 的 知识 点 。 





本 书 的 内 容 


本 书 一 共 分 为 三 大 部 分 ， 系 统 地 介绍 数据 分 析 与 挖掘 过 程 中 所 涉及 的 数据 清洗 与 整理 、 数 据 
可 视 化 以 及 数据 挖掘 的 落地 。 
第 一 部 分 (第 1~3 章 ) 介绍 有 关 数 据 分 析 与 挖掘 的 概述 以 及 Python 的 基础 知识 ， 并 通过 一 个 
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有 趣 的 案例 引入 本 书 内 容 的 学 习 。 本 部 分 内 容 可 以 为 初学 Python 的 朋友 黄 定 基础 ， 进 而 为 后 续 章 
节 的 学 习 做 准备 。 

第 二 部 分 (第 4~6 章 ) 涉及 numpy 模块 的 数值 计算 、Pandas 模块 的 数据 清洗 与 整理 以 及 
Matplotlib 模块 的 可 视 化 技术 。 本 部 分 内 容 可 以 为 数据 预 处 理 过 程 中 的 清洗 、 整 理 以 及 探索 性 分 析 
环节 提供 技术 支撑 。 

第 三 部 分 (第 7~16 章 ) 一 共 包含 10 种 数据 挖掘 算法 的 应 用 ， 如 线性 回归 、 决 策 树 、 支 持 向 
量 机 、GBDT 等 ， 使 用 通俗 易 懂 的 术语 介绍 每 一 个 挖掘 算法 的 理论 知识 ， 并 借助 于 具体 的 数据 项 目 
完成 算法 的 实战 。 本 部 分 内 容 可 以 提高 热爱 或 从 事 数据 分 析 相 关 岗 位 朋友 的 水 平和 技能 ,也 可 以 作 
为 数据 挖掘 算法 落地 的 模板 。 

本 书 每 一 章 都 有 对 应 的 数据 源 和 完整 代码 ， 代 码 均 包 含 具 体 的 中 文 注释 ， 读 者 可 以 在 笔者 的 
github 网 站 https://github.com/SnakeLiu/Python-Data-Aanalysis-and-Miner 下 载 ， 或 者 在 百度 网 盘 
https:/pan.baidu.com/s/18REQ_J057i7KL7ivBCX-cw (密码 : xt4i) 下 载 。 
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马云 曾 说 “中 国正 迎 来 从 IT 时 代 到 DT 时 代 的 变革 ”，DT 就 是 大 数据 时 代 。 随 着 移动 互联 网 的 
发 展 ， 人 们 越 来 越 感受 到 技术 所 带 来 的 便捷 ， 同 时 企业 也 将 搜集 到 越 来 越 多 与 用 户 相关 的 数据 ， 包 括 
用 户 的 基本 信息 、 交易 记录 ,个 人 喜好 、 行 为 特征 等 。 这 些 数据 就 相当 于 隐藏 在 地 球 深 处 的 宝贵 资源 ， 
企业 都 想 从 数据 红利 中 分 得 一 杯 姜 ， 进 而 推进 企业 重视 并 善 加 利用 数据 分 析 与 挖 据 相关 的 技术 。 

本 章 将 以 概述 的 形式 介绍 数据 分 析 和 挖掘 相关 的 内 容 , 通过 本 章 的 学 习 , 你 将 了 解 如 下 几 方 面 的 
知识 点 : 
数据 分 析 与 挖 扳 的 认识 ; 
数据 分 析 与 挖掘 的 几 个 应 用 案例 ; 
数据 分 析 与 挖 握 的 几 方面 区 别 ; 
数据 分 析 与 挖 气 的 具体 操作 流程 
数据 分 析 与 挖 气 的 常用 工具 。 


1.1 什么 是 数据 分 析 和 挖 气 


随 着 数据 时 代 的 蓬勃 发 展 ， 越 来 越 多 的 企 事 业 单位 开始 认识 到 数据 的 重要 性 ， 并 通过 各 种 手 
段 进行 数据 的 搜集 。 例 如 ， 使 用 问卷 调查 法 获取 用 户 对 产品 的 评价 或 改善 意见 ; 通过 每 一 次 的 实验 
获得 产品 性 能 的 改良 状况 ; 基于 各 种 设备 记录 空气 质量 状况 、 人 体 健 康 状 态 、 机 器 运行 寿命 等 ; 通 
过 网 页 或 APP 记录 用 户 的 每 一 次 登录 、 浏 览 、 交 易 、 评 论 等 操作 ， 基 于 数据 接口 、 网 络 怜 虫 等 手 
段 获取 万 维 网 中 的 公开 数据 ; 甚至 是 企业 间 的 合作 实现 多 方 数据 的 共享 。 企 事业 单位 花费 人 力 、 物 
力 获取 各 种 数据 的 主要 目的 就 是 通过 数据 分 析 和 挖掘 手段 实现 数据 的 变现 , 否则 转 积 的 数据 就 是 资 
源 的 浪费 。 

数据 分 析 和 挖掘 都 是 基于 搜集 来 的 数据 ， 应 用 数学 、 统 计 、 计 算 机 等 技术 抽取 出 数据 中 的 有 
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用 信息 ,进而 为 决策 提供 依据 和 指导 方向 。 例如 ,应 用 漏斗 分 析 法 挖掘 出 用 户 体验 过 程 中 的 不 足 之 
处 ， 从 而 进一步 改善 产品 的 用 户 流程 ， 利 用 AB 测试 法 检验 网 页 布局 的 变动 对 交易 转化 率 的 影响 ， 
从 而 确定 这 种 变动 是 否 有 利 ; 基于 RFM 模型 实现 用 户 的 价值 分 析 ， 进 而 针对 不 同 价值 等 级 的 用 户 
采用 各 自 的 营销 方案 , 实现 精准 触 达 ; 运用 预测 分 析 法 对 历史 的 交通 数据 进行 建 模 ， 预 测 城市 各 路 
线 的 车 流量 ， 进 而 改善 交通 的 拥堵 状况 ; 采用 分 类 手段 ， 对 患者 的 体检 指标 进行 挖掘 ， 判 断 其 所 属 
的 病情 状况 ; 利用 聚 类 分 析 法 对 交易 的 商品 进行 归 类 ， 可 以 实现 商品 的 捆绑 销售 、 推 荐 销售 等 营销 
手段 。 应 用 数据 分 析 和 挖掘 方法 ， 让 数据 产生 价值 的 案例 还 有 很 多 ， 这 里 就 不 一 一 枚 举 了 ， 所 以 只 
有 很 好 地 利用 数据 ， 它 才能 产生 价值 ， 毫 不 夸张 地 说 ， 大 部 分 功劳 都 要 归功 于 数据 分 析 和 挖掘 。 


1.2 ”数据 分 析 与 挖掘 的 应 用 领域 








也 许 读者 也 曾 自我 发 问 一 学 会 了 数据 分 析 和 挖掘 技术 ， 可 以 从 事 哪些 行业 的 相关 工作 呢 ? 
在 笔者 看 来 ， 有 数据 的 地 方 就 有 用 武之 地 。 现 在 的 数据 充斥 在 各 个 领域 ， 如 庞大 的 互联 网 行业 , 包 
含 各 种 电 商 平台 、 游 戏 平台 、 社 交 平 台 、 中 介 类 平台 等 ， 金 融 行 业 ， 包 含 银行 、P2P、 互 联网 金融 
等 ; 影响 国计民生 的 教育 、 医 疗 行业 ; 各 类 乙方 数据 服务 行业 ; 传统 行业 ， 如 房地产 、 和 餐饮、 美容 
等 。 这 些 行 业 都 需要 借助 数据 分 析 和 挖掘 技术 来 指导 下 一 步 的 决策 方向 ， 以 下 仅 举 3 个 行业 应 用 的 
例子 ， 进 一 步 说 明 数 据 分 析 和 挖掘 的 用 武之 地 。 


1.2.1 电 商 领域 一 一 发 现 破坏 规则 的 “害群之马 ” 


移动 互联 网 时 代 下 ， 电 商 平台 之 间 的 竞争 都 特别 激烈 ， 为 了 获得 更 多 的 新 用 户 ， 往 往 会 针对 
新 用 户 发 放 一 些 诱 人 的 福利 , 如 红包 券 、 满 减 券 、 折 扣 券 、 限 时 抢购 优惠 券 等 , 当 用 户 产生 交易 时 ， 
就 能 够 使 用 这 些 券 减免 一 部 分 交易 金额 。 电 商 平台 通过 类 似 的 营销 手段 一 方面 可 以 促进 新 用 户 的 获 
取 ， 增 添 新 鲜血 液 ， 另 一 方面 也 可 以 刺激 商城 的 交易 ， 增 加 用 户 的 活跃 度 ， 可 谓 各 取 所 需 的 双赢 效 
果 。 

然而 ， 某 些 心 念 不 正 的 用 户 为 了 从 中 件 取 利益 ， 破 坏 大 环境 下 的 游戏 规则 。 某 电 商 数据 分 析 
人 员 在 一 次 促销 活动 的 复 盘 过 程 中 发 现 交 易 记 录 存 在 异常 ,于 是 就 对 这 批 异 常 交 易 作 更 深层 次 的 分 
析 和 挖掘 。 最 终 发 现 这 批 异常 交易 都 有 两 个 共同 特点 , 那 就 是 一 张 银行 卡 对 应 数 百 个 甚至 上 千 个 用 
户 id， 同 时 ， 这 些 id 自始至终 就 发 生 一 笔 交易 。 上 暗示 了 什么 问题 ? 这 说 明 用 户 很 可 能 通过 廉价 的 
方式 获得 多 个 手机 号 ， 利 用 这 些 手机 号 去 注册 APP 成 为 享受 福利 的 多 个 新 用 户 ， 然 后 利用 低 价 优 
势 买 入 这 些 商 品 ， 最 后 再 以 更 高 的 价格 卖 出 这 些 商 品 ， 这 种 用 户 我 们 一 般 称 为 “黄牛 ”。 

这 些 “害群之马 ”的 行为 至 少 给 电 商 平台 造成 两 方面 的 影响 ， 一 是 导致 真正 想 买 商品 的 新 用 
户 买 不 到 ， 因 为 有 限 的 福利 或 商品 都 被 这 些 用 户 抢 走 了 ; 二 是 虚 增 了 很 多 “ 蒲 羊毛” 的 假 用 户 ， 因 
为 他 们 很 可 能 利用 完 新 用 户 的 福利 资格 后 就 不 会 再 交易 了 。 如 果 没 有 数据 分 析 与 挖 所 技术 在 互联 网 
行业 的 应 用 ， 就 很 难 发 现 这 些 “ 害 群 之 马 ”， 企 业 针 对 “害群之马 ”对 游戏 规则 做 了 相应 的 调整 ， 
从 而 减少 了 不 必要 的 损失 ， 同 时 也 挽回 了 真实 用 户 的 利益 。 
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1.2.2 ”交通 出 行 领域 一 一 为 打车 平台 进行 私人 订 制 


打车 工具 的 出 现 ， 改 变 了 人 们 的 出 行 习 惯 ， 也 改善 了 乘 车 的 便捷 性 ， 以 前 都 是 通过 路 边 招手 
才能 搭乘 出 租车 , 现在 坐 在 家 里 就 可 以 完成 一 对 一 的 打车 服务 。 起 初 滴 滴 、 快 滴 、 优 步 、 易 到 等 打 
车 平台 , 为 了 抢占 市 场 份额 , 不 惜 花费 巨 资 补贴 给 司机 端 和 乘客 端 , 在 一 定 程度 上 获得 了 用 户 的 青 
睐 ， 甚 至 导致 用 户 在 短途 出 行 中 都 依赖 上 了 这 些 打车 工具 。 然 而 随 着 时 间 的 推移 ， 打 车 市 场 的 格局 
基本 定型 ， 企 业 为 了 自身 的 利益 和 长 远 的 发 展 ， 不 再 进行 这 种 粗放 式 的 “ 烧 钱 ”运营 手段 。 

当 司 机 端 和 乘客 端 不 再 享受 以 前 的 福利 待遇 时 ， 在 一 定 程度 上 影响 了 乘客 端的 乘 车 频率 和 司 
机 端的 接 单 积极 性 。 为 了 弥补 这 方面 的 影响 ， 某 打车 平台 利用 用 户 的 历史 交易 数据 ,为 司机 端 和 乘 
客 端的 定价 进行 私人 订 制 。 

例如 ， 针 对 乘客 端 ， 通 过 各 种 广告 渠道 将 折扣 券 送 到 用 户 手中 ， 一 方面 可 以 唤醒 部 分 沉默 用 
户 〈 此 时 的 折扣 力度 会 相对 比较 高 )， 让 他 们 再 次 回 到 应 用 中 产生 交易 ， 另 一 方面 继续 刺激 活跃 用 
户 的 使 用 频率 〈 此 时 的 折扣 力度 会 相对 比较 低 ) ， 进 而 提高 用 户 的 忠诚 度 。 针 对 司机 端 ， 根 据 司机 
在 平台 的 历史 数据 ， 将 其 接 单 习惯 、 路 线 熟 悉 度 、 路 线 拥堵 状况 、 距 离 乘客 远近 、 天 气 变化 、 乘 客 
乘坐 距离 等 信息 输入 到 逻辑 模型 中 ,可 以 预测 出 司机 接 单 的 概率 大 小 。 这 里 的 概率 在 一 定 程度 上 可 
以 理解 为 司机 接 单 的 意愿 ， 概 率 越 高 ， 说 明 司机 接 单 的 意愿 越 强 ， 和 否则 意愿 就 越 弱 。 当 模型 发 现 司 
机 接 单 的 意愿 比较 低 时 ， 就 会 发 放 较 高 的 补贴 给 司机 端 , 否则 司机 就 会 获得 较 少 的 补贴 甚至 没有 补 
贴 。 如 果 不 将 数据 分 析 与 挖掘 手段 应 用 于 大 数据 的 交通 领域 , 就 无 法 刺激 司机 端 和 乘客 端的 更 多 交 
易 ， 同 时 ， 也 会 浪费 更 多 的 资金 ， 造 成 运营 成 本 居 高 不 下 ， 影 响 企 业 的 发 展 和 股东 的 利益 。 


1.2.3 ”医疗 健康 领域 一 一 找到 最 佳 医疗 方案 


众所周知 ， 癌 症 的 产生 是 由 于 体内 某 些 细胞 的 DNA 或 RNA 发 生 了 病变 ， 这 种 病变 会 导致 冶 
细胞 不 断 地 繁殖 ， 进 而 扩散 至 全 身 ， 最 终 形成 可 怕 的 肿瘤 。 早 在 2003 年 ， 乔 布 斯 在 一 次 身体 检查 
时 发 现 胰腺 处 有 一 块 阴 影 ， 医 生 怀疑 是 一 块 肿瘤 ， 建 议 乔布斯 马上 进行 手术 , 但 乔布斯 选择 了 药物 
治疗 。 遗 憾 的 是 ,一 年 后 ， 医 生 从 乔布斯 的 身体 检查 中 发 现 可 怕 的 癌 细 胞 已 经 扩散 到 了 全 身 ， 认 为 
乔布斯 的 生命 即将 走 到 人 生 的 终点 。 

乐观 的 乔布斯 认为 还 可 以 有 治疗 的 希望 ， 于 是 花费 几 十 万 美元 ， 让 专业 的 医疗 团队 将 自己 体 
内 的 DNA 与 历史 肿瘤 DNA 样本 进行 比 对 ， 目 的 就 是 找到 符合 肿瘤 病变 的 DNA。 这 样 ， 对 于 乔 布 
斯 体内 的 DNA 来 说 就 有 了 病变 与 正常 的 标签 ， 然 后 基于 这 个 标签 构建 分 类 算法 。 当 正常 DNA 出 
现 病变 特征 时 ， 该 算法 就 能 够 准确 地 找 出 即将 病变 的 DNA， 从 而 指导 医生 及 时 地 改变 医疗 方案 和 
寻找 有 效 的 药物 。 最 终 ， 使 得 原本 即将 走 到 终点 的 生命 ,延续 了 八 年 时 间 ， 正 是 这 短 短 的 八 年 ， 让 
乔布斯 一 次 次 地 创造 了 苹果 的 辉煌 。 如 果 没 有 数据 分 析 与 挖掘 在 医疗 行业 的 应 用 , 也 许 就 没有 现在 
的 苹果 。 
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1.3 数据 分 析 与 挖掘 的 区 别 


从 广义 的 角度 来 说 ， 数 据 分 析 的 范畴 会 更 大 一 些 ， 涵 盖 了 数据 分 析 和 数据 挖掘 两 个 部 分 。 数 
据 分 析 就 是 针对 搜集 来 的 数据 运用 基础 探索 、 统 计 分 析 、 深 层 挖掘 等 方法 ， 发 现 数据 中 有 用 的 信息 
和 未 知 的 规律 与 模式 , 进而 为 下 一 步 的 业务 决策 提供 理论 与 实践 依据 。 所 以 广义 的 数据 分 析 就 包含 
了 数据 挖掘 的 部 分 , 正如 读者 在 各 招聘 网 站 中 所 看 见 的 , 对 于 数据 分 析 师 的 任职 资格 中 常常 需要 应 
聘 者 熟练 使 用 数据 挖掘 技术 解决 工作 中 的 问题 。 从 狭义 的 角度 来 说 ， 两 者 存在 一 些 不 同 之 处 ,主要 
体现 在 两 者 的 定义 说 明 、 侧 重点 、 技 能 要 求 和 最 终 的 输出 形式 。 接 下 来 阐述 这 几 个 方面 的 差异 。 


晶 从 定义 说 明 出 发 : 数据 分 析 采 用 适当 的 统计 学 方法 ， 对 搜集 来 的 数据 进行 描述 性 分 析 和 探索 


性 分 析 ， 并 从 描述 和 探索 的 结果 中 发 现 数据 背后 存在 的 价值 信息 ， 用 以 评估 现状 和 修正 当前 
的 不 足 ; 数据 挖 气 则 广泛 交叉 数据 库 知 识 、 统 计 学 、 机 器 学 习 、 人 工 智 能 等 方法 ， 对 搜集 来 
的 数据 进行 “采矿 ”， 发 现 其 中 未 知 的 规律 和 有 用 的 知识 ， 进 一 步 应 用 于 数据 化 运营 ， 让 数据 
产生 更 大 的 价值 。 

从 侧重 点 出 发 : 数据 分 析 更 侧重 于 实际 的 业务 知识 ， 如 果 将 数据 和 业务 分 开 ， 往 往 会 导致 数 
据 的 输出 不 是 业务 所 需 ， 业 务 的 需求 无 法 通过 数据 体现 ， 故 数据 分 析 需 要 两 者 的 紧密 结合 ， 
实现 功效 的 最 大 化 ; 数据 挖 气 更 侧重 于 技术 的 实现 ,对 业务 知识 的 熟练 度 并 没有 很 高 的 要 求 ， 
如 何 从 海量 的 数据 中 发 现 未 知 的 模式 和 规律 ， 是 数据 挖 据 的 目的 所 在 ， 只 有 技术 过 硬 ， 才 能 
实现 挖 气 项 目的 落地 。 

从 掌握 的 技能 出 发 : 数据 分 析 一 般 要 求 具备 基本 的 统计 学 知识 、 数 据 库 操作 技能 、Excel 报 
表 开 发 和 常用 可 视 化 图 表 展现 的 能 力 ， 就 可 以 解决 工作 中 的 分 析 任务 ; 数据 挖 据 对 数学 功底 
和 编程 能 力 有 较 高 的 要 求 ， 数 学 功底 是 数据 挖 气 、 机 器 学 习 、 人 工 智能 等 方面 的 基础 ， 没 有 
好 的 数学 功底 ,在 数据 挖 气 领 域 是 走 不 远 的 ,编程 能 力 是 从 数据 中 发 现 未 知 模式 和 规律 途径 ， 
没有 编程 技能 ， 就 无 法 实现 算法 的 落地 。 

从 输出 的 结果 出 发 : 数据 分 析 更 多 的 是 统计 描述 结果 的 呈现 ， 如 平均 水 平 、 总 体 趋势 、 差 异 
对 比 、 数 据 转化 等 ， 这 些 结果 都 必须 结合 业务 知识 进行 解读 ， 否 则 一 组 数据 是 没有 任何 实际 
意义 的 ; 数据 挖 据 更 多 的 是 模型 或 规则 的 输出 ， 通 过 模型 或 规则 可 对 未 知 标签 的 数据 进行 预 
测 ， 如 预测 交通 的 畅通 度 ( 预测 模型 )、 判 别 用 户 是 否 响 应 某 种 营销 活动 ( 分 类 算法 ) 通过 
模型 或 规则 实现 智能 的 商业 决策 ， 如 推荐 用 户 可 能 购买 的 商品 (推荐 算法 )、 划 分 产品 所 属 的 
群 类 ( 聚 类 算法 ) 等 。 


为 了 读者 更 容易 理解 和 区 分 两 者 之 间 的 差异 ， 这 里 将 上 面 描述 的 四 方面 内 容 做 一 个 简短 的 对 
比 和 总 结 ， 如 表 1-1 所 示 。 


表 1-1 数据 分 析 与 挖掘 对 比 





差异 角度 | 数据 分 析 数据 挖掘 





描述 和 探索 性 分 析 ， 评 估 现 状 和 修正 不 足 技术 性 的 “采矿 ”过 程 ， 发 现 未 知 的 模式 和 规律 

















实际 的 业务 知识 挖掘 技术 的 落地 ， 完 成 “采矿 ”过 程 
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( 续 表 ) 
差异 角度 | 数据 分 析 数据 挖掘 

技能 | 统计 学 、 数 据 库 、Excel、 可 视 化 竺 过 硬 的 数学 功底 和 编程 技术 

结果 ”| 需 结合 业务 知识 解读 统计 结果 模型 或 规则 








1.4 数据 挖掘 的 流程 


本 书 将 安排 10 个 章节 的 内 容 来 讲解 具体 的 数据 挖掘 算法 和 应 用 案例 ， 故 需要 对 数据 挖掘 的 具 
体 流程 做 一 个 详细 的 说 明 。 这 里 的 流程 可 以 理解 为 数据 挖 所 过 程 中 的 规范 , 只 有 熟悉 了 这 些 具体 的 
规范 , 才 可 以 在 数据 挖掘 过 程 中 做 到 游 思 有 余 。 首 先 通过 图 1-1 中 的 金字 塔 了 解数 据 挖 据 中 具体 的 
操作 步骤 。 





图 1-1 数据 挖掘 步 又 


1.4.1 明确 目标 


前 面 讲 了 几 个 有 关 数 据 分 析 和 数据 挖掘 在 电 商行 业 、 交 通 领 域 和 医疗 健康 方面 的 案例 ， 体 现 
了 数据 分 析 与 挖掘 的 重要 性 。 你 可 能 非常 期 待 数据 分 析 与 挖掘 在 工作 中 的 应 用 , 先 别 急 ， 在 实施 数 
据 挖掘 之 前 必须 明确 自己 需要 解决 的 问题 是 什么 ， 然 后 才 可 以 有 的 放 矢 。 
这 里 通过 三 个 实际 的 案例 来 加 以 说 明 数 据 挖 气流 程 中 的 第 一 步 ， 即 明确 目标 : 
日 ”在 餐饮 行业 ， 可 能 都 会 存在 这 方面 的 痛 点 ， 即 如 何 调整 中 餐 或 晚餐 的 当班 人 数 ， 以 及 为 下 一 
餐 准备 多 少食 村 比较 合理 。 如 果 解 决 了 这 个 问题 ， 那 么 对 于 餐厅 来 说 既 可 以 降低 人 工 成 本 ， 
又 可 以 避免 食材 的 浪费 。 
”当前 互联 网 经 济 下 的 消费 信贷 和 现金 信贷 都 非常 流行 ， 对 于 企业 来 说 可 以 达到 “以 钱 赚钱 ” 
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的 功效 ， 对 于 用 户 来 说 短期 内 可 以 在 一 定 程度 上 减轻 经 济 压力 ， 从 而 实现 两 端的 双赢 。 但 是 
企业 会 面临 给 什么 样 的 用 户 放 发 信贷 的 选择 ， 如 果 选 择 正确 了 ， 可 以 赚 取 用 户 的 利息 ， 如 果 
选择 错误 了 ， 就 得 赔 上 本 金 。 所 以 风险 控制 ( 简称 “ 风 控 ” ) 尤其 重要 ， 如 果 风 控 做 得 好 ， 就 
能 够 降低 损失 ， 否 则 就 会 导致 大 批 “坏账 ”其 至 是 面临 倒闭 。 

@ ”对 于 任何 一 个 企业 来 说 ， 用 户 的 价值 高 低 决定 了 企业 可 从 用 户 身上 获得 的 利润 空间 。 用 户 越 

忠诚 、 价 值 越 高 ， 企 业 从 用 户 身上 获取 的 利润 就 越 多 ， 反 之 利润 就 越 少 。 所 以 摆 在 企业 眼前 
的 重大 问题 就 是 如 何 提 升 用 户 的 生命 价值 。 

1.4.2 ”数据 搜集 


当 读 者 明确 企业 面临 的 痛 点 或 工作 中 需要 处 理 的 问题 后 ， 下 一 步 就 得 规划 哪些 数据 可 能 会 影 
响 到 这 些 问 题 的 答案 ,这 一 步 就 称 为 数据 的 搜集 过 程 。 数 据 搜集 过 程 显得 尤为 重要 ， 其 决定 了 后 续 
工作 进展 的 顺利 程度 。 接 下 来 继续 第 一 步 中 的 例子 , 说 明 这 三 个 案例 中 都 需要 搜集 哪些 相关 的 数据 。 


私 


餐饮 相关 

食材 数据 : 食材 名 称 、 食 材 品类 、 采 购 时 间 、 采 购 数量 、 采 购 金额 、 当 天 剩余 量 等 。 

经 营 数据 : 经 营 时 间 、 预 定时 间 、 预 定 台数 、 预 定 人 数 、 上 座 台数 、 上 座 人 数 、 上 菜 名 称 、 
上 菜 价格 、 上 菜 数 量 、 特 价 菜 信息 等 。 

其 他 数据 : 天 气 状 况 、 交 通 便捷 性 、 竞 争 对 手动 向 、 是 否 为 节假日 、 用 户口 碑 等 。 


. 金融 授信 


用 户 基本 数据 : 姓名 、 性 别 、 年 龄 、 受 教育 水 平 、 职 业 、 工 作 年 限 、 收 入 状况 、 婚 姻 状态 、 
借贷 情况 、 房 产 、 汽 车 等 。 

刷卡 数据 : 是 否 有 信用 卡 、 刷 卡 消费 频次 、 刷 卡 缴费 规律 、 刷 卡 金额 、 是 否 分 期 、 是 否 逾 期 、 
逾期 天 数 、 未 偿还 金额 、 信 用 人 额度、 额度 使 用 率 等 。 

其 他 数据 : 信用 报告 查询 记录 、 电 话 核查 记录 、 银 行 存款 、 社 交 人 脉 、 其 他 APP 数据 等 。 


. 影响 用 户 价值 高 低 


@ ”会员 数据 : 性 别 、 年 龄 、 教 育 水 平 、 会 员 等 级 、 会 员 积分 、 收 入 状况 等 。 


交易 数据 : 用 户 浏览 记录 、 交 易 商 品 、 交 易 数量 、 交 易 频次 、 交 易 金 额 、 客 单价 、 最 后 交易 
时 间 、 偏 好 、 下 单 与 结账 时 差 等 。 


日 ”促销 数据 : 用 户 活动 参与 度 、 优 惠 券 领取 率 、 优 惠 券 使 用 率 、 购 买 数量 、 购 买 金额 等 。 
”客服 数据 : 实时 沟通 渠道 数量 、 用 户 沟通 次 数 、 用 户 疑 问 响应 速度 、 疑 问 解答 率 、 客 户 服务 


满意 度 等 。 


1.4.3 ”数据 清 ; 


为 解决 企业 痛 点 或 面临 的 问题 ， 需 要 搜集 相关 的 数据 。 即 使 数据 搜集 上 来 ， 也 必须 保证 数据 
“干净 ”， 因 为 数据 质量 的 高 低 将 影响 最 终结 果 的 准确 性 。 通 常 都 有 哪些 “不 干净 ”的 数据 会 影响 
后 面 的 建 模 呢 ? 针对 这 些 数据 都 有 哪些 解决 方案 呢 ? 这 里 不 妨 做 一 个 简要 的 概述 。 
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@ ”缺失 值 : 由 于 个 人 隐私 或 设备 故障 导致 菜 些 观测 在 维度 上 的 漏 缺 ， 一 般 称 为 缺失 值 。 缺 失 值 
的 存在 可 能 会 导致 模型 结果 的 错误 , 所 以 针对 缺失 值 可 以 考虑 删除 法 、 替 换 法 或 插值 法 解决 。 

日 异常 值 : 异常 值 一 般 指 远离 正常 样本 的 观测 点 ， 它 们 的 存在 同样 会 影响 模型 的 准确 性 ， 故 可 
以 考虑 删除 法 或 单独 处 理 法 。 当 然 某 些 场景 下 ， 异 常 值 是 有 益 的 ， 例 如 通过 异常 值 可 以 筛选 
出 钓鱼 网 站 。 

”数据 的 不 一 致 性 : 主要 是 由 于 不 同 的 数据 源 或 系统 并 发 不 同步 所 导致 的 数据 不 一 致 性 ， 例 如 
两 个 数据 源 中 数据 单位 的 不 一 致 ( 一 个 以 元 为 单位 ， 另 一 个 以 万 元 为 单位 ); 系统 并 发 不 同步 
导致 一 张 电影 票 被 多 个 用 户 购 买 。 针 对 这 种 情况 则 需要 不 同 数据 源 的 数据 更 新 ( SQL ) 或 系 
统 实现 同步 并 发 。 

®。” 量 纲 的 影响 : 由 于 某 些 模型 容易 受到 不 同 量 纲 的 影响 ， 因 此 需要 通过 数据 的 标准 化 方法 将 不 
同 量 岗 的 数据 进行 统一 处 理 ， 如 将 数据 都 压缩 至 0~1 的 范围 。 

@ 维度 灾难 : 当 采 集 来 的 数据 包含 上 百 乃至 成 千 上 万 的 变量 时 ， 往 往 会 提高 模型 的 复杂 度 ， 进 
而 影响 模型 的 运行 效率 ， 故 需要 采用 方差 分 析 法 、 相 关系 数 法 、 递 归 特征 消除 法 、 主 成 分 分 
析 法 等 手段 实现 数据 的 特征 提取 或 降 维 。 


1.4.4 ”构建 模型 


“万 事 俱 备 ， 只 欠 建 模 ”! 据 不 完全 统计 ， 建 模 前 的 数据 准备 将 占 整个 数据 挖掘 流程 80% 左 
右 的 时 间 ， 可 谓 “ 地 基 不 牢 ， 地 动 山 摇 ”。 接 下 来 ， 在 数据 准备 充分 的 前 提 下 ， 需 要 考虑 企业 面临 
的 痛 点 或 难题 可 以 通过 什么 类 型 的 挖掘 模型 解决 。 
e 对 于 餐饮 业 需 要 预测 下 一 餐 将 有 多 少 消费 者 就 餐 的 问题 ， 可 以 归属 于 预测 类 型 的 挖 气 模型 。 
如 基于 整理 好 的 餐饮 相关 数据 使 用 线性 回归 模型 、 决 策 树 、 支 持 向 量 机 等 实现 预测 ， 进 而 为 
下 一 顿 做 好 提前 准备 。 
@ ”对 于 选择 什么 样 的 用 户 放 发 信贷 问题 ， 其 实 就 是 判断 该 用 户 是 否 有 具有 良好 信用 的 特征 ， 属 于 
分 类 类 型 的 挖掘 模型 。 例 如， 基于 Logistic 模型 、 决 策 树 、 神 经 网 络 等 完成 用 户 的 分 类 ， 为 
选择 优良 用 户 提供 决策 支持 。 
@ ”对 于 用 户 的 价值 分 析 ， 不 再 具有 现成 的 标签 ， 故 无 法 使 用 预测 或 分 类 类 型 的 模型 解决 ， 可 以 
考虑 无 监督 的 聚 类 类 型 模型 ,因为 “ 物 以 类 聚 , 人 以 群 分 ”, 例 如 ,使 用 均值 模型 .DBSCAN、 
最 大 期 望 EM 等 实现 不 同 价值 人 群 的 划分 。 


1.4.5 “模型 评估 


到 此 阶段 ， 已 经 完成 了 数据 挖掘 流程 中 的 绝 大 部 分 工作 ， 并 且 通 过 数据 得 到 解决 问题 的 多 个 
方案 (模型 )， 接 下 来 要 做 的 就 是 从 这 些 模型 中 挑选 出 最 佳 的 模型 ， 主 要 目的 就 是 让 这 个 最 佳 的 模 
型 能 够 更 好 地 反映 数据 的 真实 性 。 例如， 对 于 预测 或 分 类 类 型 的 模型 ， 即 使 其 在 训练 集中 的 表现 很 
好 , 但 在 测试 集中 结果 一 般 ， 则 说 明 该 模型 存在 过 拟 合 的 现象 ， 需 要 从 数据 或 模型 角度 做 进一步 修 
正 。 
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1.4.6 ”应 用 部 署 


通常 ， 模 型 构建 和 评估 工作 的 完成 ， 并 不 代表 整个 数据 挖掘 流程 的 结束 ， 往 往 还 需要 最 后 的 
应 用 部 署 。 尽 管 模型 构建 和 评估 是 数据 分 析 师 或 挖掘 工程 师 所 擅长 的 , 但 是 这 些 挖掘 出 来 的 模式 或 
规律 是 给 真正 的 业务 方 或 客户 服务 的 ， 故 需要 将 这 些 模式 重新 部 署 到 系统 中 。 

例如 ， 疾 控 中 心 将 网 民 在 互联 网 上 的 搜索 记录 进行 清洗 和 统计 ， 并 将 整理 好 的 数据 输入 某 个 
系统 中 ， 就 可 以 预测 某 地 区 发 生 流感 的 概率 ; 用 户 在 申请 贷款 时 ， 前 端 业务 员 通 过 输入 贷款 者 的 信 
息 ， 就 可 以 知道 其 是 否 满足 可 贷款 的 结论 ; 利用 用 户 在 电 商 平台 留 下 的 浏览 、 收 藏 、 交 易 等 记录 ， 
就 可 以 向 用 户 推荐 其 感 兴趣 的 商品 。 这 些 应 用 的 背后 ， 都 将 数据 中 的 模式 或 规律 做 了 重新 部 署 ， 进 
而 便于 使 用 方 的 操作 。 


1.5 和 常用 的 数据 分 析 与 挖掘 工具 








“和 欲 先 善 其 事 ， 必 先 利 其 器 ! ”这 里 的 “器 ”含有 两 方面 的 意思 ， 一 方面 是 软 实力 ， 包 含 对 
企业 业务 逻辑 的 理解 、 理 论 知识 的 掌握 和 施展 工作 的 清醒 大 脑 ， 另 一 方面 是 硬 实力 ， 即 对 数据 挖 捉 
工具 的 掌握 。 接 下 来 就 针对 数据 分 析 和 挖掘 过 程 中 所 使 用 的 几 种 常用 工具 做 简单 介绍 。 

在 恨 语 言 


R 语言 是 由 奥克兰 大 学 统计 系 的 Robert Gentleman 和 Ross Ihaka 共同 开发 的 ， 并 在 1993 年 首 
次 亮相 。 其 具备 灵活 的 数据 操作 、 高 效 的 向 量化 运算 、 优 秀 的 数据 可 视 化 等 优点 ， 受 到 用 户 的 广泛 
欢迎 。 近 年 来 ， 由 于 其 易 用 性 和 可 扩展 性 也 大 大 提高 了 R 语言 的 知名 度 。 同 时 ， 它 也 是 一 款 优秀 
的 数据 挖掘 工具 ， 用 户 可 以 借助 强大 的 第 三 方 扩展 包 ， 实 现 各 种 数据 挖掘 算法 的 落地 。 

2. Python 


Pyhton 是 由 荷兰 人 Guido van Rossum 于 1989 年 发 明 的 ， 并 在 1991 年 首次 公开 发 行 。 它 是 一 
款 简 单 易 学 的 编程 类 工具 ， 同 时 ， 其 编写 的 代码 具有 简洁 性 、 易 读 性 和 易 维 护 性 等 优点 ， 也 受到 广 
大 用 户 的 青睐 。 其 原本 主要 应 用 于 系统 维护 和 网 页 开发 ， 但 随 着 大 数据 时 代 的 到 来 ， 数 据 挖掘 、 机 
器 学 习 、 人 工 智 能 等 技术 越发 热门 ， 进 而 促使 了 Python 进入 数据 科学 的 领域 。Python 同样 拥有 各 
种 五 花 八 门 的 第 三 方 模块 ， 用 户 可 以 利用 这 些 模 块 完成 数据 科学 中 的 工作 任务 。 例 如 ，pandas、 
statsmodels、scipy 等 模块 用 于 数据 处 理 和 统计 分 析 ; matplotlib、seaborn、bokeh 等 模块 实现 数据 的 
可 视 化 功能 ，sklearn、PyML、keras、tensorflow 等 模块 实现 数据 挖 据 、 深 度 学 习 等 操作 。 

3. Weka 

Weka 由 新 西 兰 怀 卡 托 大 学 计算 机 系 Ian Written 博士 于 1992 年 末 发 起 开发 ， 并 在 1996 年 公 
开发 布 Weka 2.1 版 本 。 它 是 一 款 公 开 的 数据 挖掘 平台 ， 包 含 数据 预 处 理 、 数 据 可 视 化 等 功能 ， 以 
及 各 种 常用 的 回归 、 分 类 、 聚 类 、 关 联 规则 等 算法 。 对 于 不 擅长 编程 的 用 户 ， 可 以 通过 Weka 的 图 
形 化 界面 完成 数据 分 析 或 挖掘 的 工作 内 容 。 
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4. SAS 

SAS 是 由 美国 北 卡 罗 来 纳 州 大 学 开发 的 统计 分 析 软 件 ， 当 时 主要 是 为 了 解决 生物 统计 方面 的 
数据 分 析 。 在 1976 年 成 立 SAS 软件 研究 所 ， 经 过 多 年 的 完善 和 发 展 ， 最 终 在 国际 上 被 誉 为 统计 分 
析 的 标准 软件 ， 进 而 受到 各 个 领域 的 广泛 应 用 。SAS 由 数 十 个 模块 构成 ， 其 中 Base 为 核心 模块 
主要 用 于 数据 的 管理 和 清洗 、GHAPH 模块 可 以 帮助 用 户 实现 数据 的 可 视 化 、STAT 模块 则 涵盖 了 
所 有 的 实用 统计 分 析 方法 、EM 模块 则 是 更 加 人 性 化 的 图 形 界 面 ， 通 过 托 拉 搜 的 方式 实现 各 种 常规 
挖掘 算法 的 应 用 。 

5. SPSS 

SPSS 是 世界 上 最 早 的 统计 分 析 软 件 ， 最 初 由 斯 坦 福 大 学 的 三 个 研究 生 在 1968 年 研发 成 功 ， 
并 成 立 SPSS 公司 ， 而 且 在 1975 年 成 立 了 SPSS 芝加哥 总 部 。 用 户 可 以 通过 SPSS 的 界面 实现 数据 
的 统计 分 析 和 建 模 、 数 据 可 视 化 及 报表 输出 ， 简 单 的 操作 受到 了 众多 用 户 的 喜爱 。 除 此 之 外 ，SPSS 
还 有 一 款 Modeler 工具 ， 其 前 身 是 Clementine，2009 年 被 IBM 收购 后 ， 对 其 性 能 和 功能 做 了 大 幅 
的 改进 和 提升 。 该 工具 充分 体现 了 数据 挖掘 的 各 个 流程 ， 例 如 数据 的 导入 、 清 洗 、 探 索性 分 析 、 模 
型 选择 、 模 型 评估 和 结果 输出 ， 用 户 可 基于 界面 化 的 操作 完成 数据 挖掘 的 各 个 环节 。 

上 面向 读者 介绍 了 5 款 较为 常用 的 数据 分 析 与 挖掘 工具， 其 中 R 语言 、Python 和 Weka 都 属 
于 开源 工具 ， 读 者 不 需要 支付 任何 费用 就 可 以 从 官网 下 载 并 安装 使 用 ， 而 SAS 和 SPSS 则 为 商业 
软件 ， 需 要 支付 一 定 的 费用 方 可 使 用 。 本 书 将 基于 开源 的 Python 工具 来 讲解 有 关 数 据 分 析 和 挖掘 
方面 的 应 用 和 实战 。 











1.6 本章 小 结 


本 章 主 要 站 在 读者 的 角度 ， 回 答 了 有 关 数 据 分 析 与 挖掘 的 定义 、 应 用 的 领域 、 两 者 的 差异 、 
实际 的 操作 流程 和 常用 的 落地 工具 ,同时 ,通过 一 个 个 小 案例 来 说 明 数 据 分 析 和 挖掘 在 实际 应 用 中 
的 价值 体现 ， 让 读者 对 其 拥有 足够 的 重视 。 通 过 本 章 的 学 习 ， 和 希望 读者 能 够 对 数据 分 析 与 挖 握 有 一 
个 清晰 的 认识 ， 进 而 为 后 续 章节 的 学 习 做 铺垫 。 


从 收入 的 预测 分 析 开 始 


在 数据 分 析 与 挖掘 过 程 中 ， 预 测 性 或 分 类 性 问题 往往 是 企业 需要 解决 的 主要 问题 ， 例 如 下 一 
季度 的 营 收 可 能 会 达到 多 少 、 什 么 样 的 用 户 可 能 会 流失 、 一 场 营销 活动 中 哪些 用 户 的 参与 度 会 比较 

本 章 将 通过 Python 语言 ， 以 一 个 实战 案例 介绍 分 类 性 问题 的 解决 步骤 。 通 过 本 章 的 学 习 ， 你 
各 会 了 解 到 基于 Python 的 数据 处 理 和 建 模 方法 : 

ee ”外 部 数据 的 读 取 ; 

@ ”数据 的 预 处 理 ; 

”数据 的 探索 性 分 析 ; 

@ ”数据 建 模 ; 
”模型 预测 与 评估 。 


2.1 下 载 与 安装 Anoconda 


本 书 中 的 所 有 代码 都 是 基于 Python 3 实现 的 ， 所 以 必须 确保 你 的 电脑 已 经 安装 好 了 Python 工 
具 。 如 果 没 有 安装 也 不 用 担心 ， 本 节 的 主要 内 容 就 是 引导 读者 如 何 下 载 并 安装 一 款 好 用 的 Python 
工具 。 

Anoconda 是 不 错 的 选择 ， 专 门 用 于 科学 计算 的 Python 发 行 版 ， 支 持 Windows、Linux 和 Mac 
系统 , 可 以 很 方便 地 解决 多 版 本 Python 并 存 、 切换 以 及 各 种 第 三 方 模块 安装 的 问题 。 更 重要 的 是 ， 
当 你 下 载 并 安装 好 Anoconda 后 ， 它 就 已 经 集成 了 上 百 个 科学 计算 的 第 三 方 模块 ， 例 如 书 中 将 要 使 
用 的 numpy、pandas、matplotlib、seaborn、statsmodels、sklearn 等 。 用 户 需 要 使 用 这 些 模块 时 ， 直 
接 导 入 即 可 ， 不 用 再 去 下 载 。 

接 下 来 将 针对 Windows、Linux 和 Mac 系统 , 分别 介绍 各 自 的 安装 方法 ,以 便 读者 按 步 操作 。 
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首先 你 需要 到 Anoconda 官网 (https://www.anaconda.com/download/) 下 载 对 应 系统 的 Anoconda 工 
具 。 注 意 ， 本 书 是 基于 Python 3 的 应 用 ， 所 以 你 需要 下 载 Python 3.X 的 Anoconda。 





2.1.1 基于 Windows 系统 安装 


步 又 014 从 官网 中 下 载 好 Windows 版 本 的 Anoconda 后 ， 双 击 该 软件 并 进入 安装 向 导 ， 并 和 
“Next” 按 钮 ， 如 图 2-1 所 示 。 
D Anaconda3 411(54-6 Setup (= es 


低 





























中 








Welcome to the Anaconda3 4.1.1 
(64-bit) Setup Wizard 


This wizard wil guide you through the instalation of 
Anaconda3 4.1.1(64bit). 


Itis recommended that you dose all other applications 
before starting Setup. This wil make it possible to update 
relevant system files without having to reboot your 
computer. 


Chck Next to continue. 





[cme |] 





图 2-1 安装 引导 页 





步 又 024 进入 阅读 “License Agreement” 窗 口 ， 单 击 “IAgree” 按 钮 。 
步骤 034 推荐 选择 “Just Me (recommended)"， 如 果 选 择 的 是 “All Users" ， 就 需要 Windows 
的 管理 员 权 限 。 
步骤 044 选择 目标 路 径 用 于 Anodonda 工具 的 安装 ， 并 单 击 “Next” 按 钮 ， 如 图 2-2 所 示 。 
I Anaconda3 4.1.1 (64-bit) Setup l=! es 








| 

















. Choose Install Location 
站 ANACONDA 。 choose the folder n which to instal Anaconda3 4.1.1(54bib. 


Setup will install Anaconda3 4. 1, 1 (64-bit) in the folowing folder, To install in a different 
folder, dick Browse and select another folder, Clck Next to continue. 


Destination Folder 





Space required: 353.4MB 
Space available: 40.4G8 











12 | ”从 零 开始 学 Python 数据 分 析 与 挖掘 





步骤 054 建议 不 添加 Anoconda 到 环境 变量 中 ， 因 为 它 可 能 会 影响 到 其 他 软件 的 正常 运行 ， 
故 选择 将 Python3.X 作为 Anoconda 的 默认 版 本 。 单 击 “Install” 按 钮 ， 进 入 安装 环节 ， 如 图 2-3 所 


示 。 














D Anaconda3 411 (64-bit) Setup (= me 





六 ANACONDA 


Advanced Options 





Rad Maconds tw my PATH envronment varablel 
This ensures that PATH set correctly when usng Python, IPython, 


If unchecked, then you must use the Anaconda Command Prompt 
(ocated in the Start Menu under “Anaconda (564-0)) 


辐 Register Anaconda as my defaut Python 3.5 

This wil alow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automaticaly 
detect Anaconda as the primary Python 3.5 on the system. 


Advanced Installation Options 
Customize how Anaconda integrates with Windows 


CBs J ] (cee ] 











2-3 ”设置 环境 变量 页 


步 昧 064 大 概 5 分 钟 就 可 以 完成 安装 ， 单 击 “Finish” 按 钮 即 可 ， 如 图 2-4 所 示 。 


y retaliation Complete 
OO ANAcoNDA seto wos compeied mecesstay 


Completed 


Lewsee | 





Ce 








Thanks for installing Anacondal 
Anaconda isa modem open sourc analyts patfom 
Pomered byPython. 

Share wur notebooks, packaoes snd envronments on 
Anaconta Coud 


lean more ar0ut Anaconda Coud 























2.1.2 ”基于 Mac 系统 安装 


图 2-4 安装 成 功 页 





步骤 014 从 官网 中 下 载 好 Mac 版 本 的 Anoconda 后 ， 双 击 该 软件 ， 进 入 Anoconda 的 安装 向 





导 ， 单 击 “Continue” 按 钮 。 














步骤 024 进入 “Read Me” 窗 口 ， 继 续 单 击 “Continue” 按 钮 。 





步骤 034 进入 阅读 “License” 窗 
步骤 044 进入 “Destination Select” 
按钮 ， 如 图 2-5 所 示 。 











， 勾 选 “T Agree”"， 并 单 击 “Continue” 按 钮 。 





窗口 , 推荐 选择 “Install for me only”, 并 单 击 “Continue” 
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步骤 054 进入 “Installation Type” 窗 口 ， 推 荐 默认 设置 ( 将 Anoconda 安装 在 3 


须 改动 安装 路 径 ， 单 











ea 入 Install Anaconda3 a 
| 
© Introduction How do you want to install this software? 
© ReadMe 
e License i 
®» Destination Select 
» Installation Type A nstallforme only 
Installation 
Summary [| Install on a specific disx... 
p> Installing this software requires 144 GB of space. 
EE 
入 ) You have chcsen to install this software in your home folder. 
。 Only the current user will be able to use this softwars. 
ANACONDA 


Continue 


图 2-5 目标 选择 页 





“Install” 按 钮 ， 进 入 安装 环节 ， 如 图 2-6 所 示 。 


@ Install Anaconda3 = 


Standard Install on "Macintosh HD” 


This will take 144 GB of space on your computer 


® Introduction 

©» Read Me Click Install to perform a standard installation of this software 
in your home folder. Only the current user of this computer will 

» License be able to use this software. 


» Destination Select 
» Installation Type 
nstallation 


Summary 


ANACONDA 


Change Install Location.. 


Customize Go Back Install 


2-6 ”安装 类 型 页 


步骤 064 经 过 几 分 钟 ， 即 完成 整个 安装 流程 ， 如 图 2-7 所 示 。 


ea 盖 Install Anaconda3 a 


The installation was completed successfully. 

Anaconda is the leading open data science platform powered by 
© Introduction 了 Python 
aa Share your noteboaks and packages on Anaconda Cloud! 
License Sign up for free 
» Destination Select 
» Installation Type 
» Installaton 
。 Summary 





ANACONDA 


2.7 安装 成 功 页 


目录 下 )， 无 
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当然 ， 如 果 你 不 习惯 在 Mac 系统 中 使 用 图 形 化 的 安装 方式 ， 也 可 以 通过 命令 行 的 方式 完成 
Anoconda 的 安装 (以 Anaconda3-5.0.1 版 本 为 例 ) ， 具 体 步 骤 如 下 : 

步骤 014 同样 需要 通过 官网 下 载 好 Mac 版 本 的 Anoconda， 并 将 其 放 在 桌面 。 
步 又 024 打开 终端 ， 输 入 “bash Anaconda3-5.0.1-MacOSX-x86_64.sh”。 
步 叉 034 接 下 来 会 提示 阅读 “条 款 协 议 "， 只 需 按 一 下 回 车 键 即 可 。 
步 昧 044 滑动 滚动 条 到 协议 底部 ， 输 入 “Yes”。 
步骤 054 提示 “ 按 下 回 车 键 " 接受 默认 路 径 的 安装 , 接 下 来 继续 输入 “Yes”, 进入 安装 环节 。 
步骤 064 最 终 完成 安装 ， 并 提示 “Thank you for installing Anaconda!”。 


注意 ， 关 闭 终端 ， 重 启 后 安装 才 有 效 。 






































2.1.3 ”基于 Linux 系统 安装 


步骤 01 4 从 官网 中 下 载 好 Linux 版 本 的 Anoconda， 并 将 其 放 在 桌面 。 
步 又 024 打开 终端 ， 输 入 “bash Anaconda3-5.0.1-Linux-x86 64.sh "。 
步骤 034 接 下 来 会 提示 阅读 “条 款 协 议 "， 只 需 按 一 下 回 车 键 即 可 。 
步骤 044 滑动 滚动 条 到 协议 底部 ， 输 入 “Yes”。 
步 坚 054 提示 “ 按 下 回 车 键 ”接受 默认 路 径 的 安装 ， 接 下 来 继续 输入 “Yes"。 
步骤 064 最 终 完成 安装 ， 并 提示 “Thank you for installing Anaconda3!”。 




















注意 ， 关 闭 终端 ， 重 启 后 安装 才 有 效 。 
2.2 ”基于 Python 的 案例 实战 


2.2.1 数据 的 预 处 理 


1994 年 Ronny Kohavi 和 Barry Becker 针对 美国 某 区 域 的 居民 做 了 一 次 人 口 普 查 ， 经 过 筛选 ， 
一 共 得 到 32 561 条 样本 数据 。 数 据 中 主要 包含 了 关于 居民 的 基本 信息 以 及 对 应 的 年 收入 ， 其 中 年 
收入 就 是 本 章 中 需要 预测 的 变量 ， 具 体 数据 指标 和 含义 见 表 2-1。 


表 2-1 美国 某 区 域 居民 基本 数据 集 




















变量 名 称 变量 含义 变量 类 型 
数值 型 
fnlwgt 序号 数值 型 
education 受 教育 程度 离散 型 
education-num 受 教育 时 长 数值 型 
marital-status 婚姻 状态 离散 型 








occupation 职业 离散 型 
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( 续 表 ) 

变量 名 称 变量 含义 变量 类 型 
Telationship 家 庭 成 员 关系 离散 型 

种 族 离散 型 

性 别 离散 型 
capital-gain 资本 收益 数值 型 
capital-loss 资本 损失 数值 型 
hours-per-week 每 周 工作 小 时 数 数值 型 
native-country 国籍 离散 型 
income 收入 离散 型 








基于 上 面 的 数据 集 , 需要 预测 居民 的 年 收入 是 否 会 超过 5 万 美元 , 从 表 2-1 的 变量 描述 信息 可 
知 ， 有 许多 变量 都 是 离散 型 的 ， 如 受 教育 程度 、 婚 姻 状 态 、 职 业 、 性 别 等 。 通 常数 据 拿 到 手 后 ， 都 
需要 对 其 进行 清洗 , 例如 检查 数据 中 是 否 存在 重复 观测 、 缺失 值 、 异常 值 等 , 而 且 , 如 果 建 模 的 话 ， 
还 需要 对 字符 型 的 离散 变量 做 相应 的 重 编码 。 首 先 将 上 面 的 数据 集 读 入 Python 的 工作 环境 中 : 

# 导入 第 三 方 包 

import pandas as pd 


import numpy as np 
import seaborn as sns 





# 数据 读 取 

income = pd.read excel(r'C:\Users\Administrator\Desktop\income.xlsx') 
# 查看 数据 集 是 否 存在 缺失 值 

income.apply(lambda x:np.sum(x.isnull())) 























见 表 2-2。 
表 2-2 变量 缺失 概览 
变量 名 缺失 个 数 变量 名 缺失 个 数 
[mm | mce 0 
sex 0 
fnlwgt capital-gain 0 
education capital-loss 0 
education-num hours-per-week 0 
marital-status native-country 583 
occupation income 0 
relationship 0 











表 2-2 显示 , 居民 的 收入 数据 集中 有 3 个 变量 存在 数值 缺失 , 分 别 是 居民 的 工作 类 型 、 职 业 和 
国籍 。 缺失 值 的 存在 一 般 都 会 影响 分 析 或 建 模 的 结果 ， 所 以 需要 对 缺失 数值 做 相应 的 处 理 。 

缺失 值 的 处 理 一 般 采用 三 种 方法 : 一 是 删除 法 ， 即 将 存在 缺失 的 观测 进行 删除 ， 如 果 缺 失 比 
例 非常 小 ， 则 删除 法 是 比较 合理 的 ， 反之 , 删除 比例 比较 大 的 缺失 值 将 会 丢失 一 些 有 用 的 信息 ; 二 
是 替换 法 ， 即 使 用 一 个 常数 对 某 个 变量 的 缺失 值 进行 蔡 换 ,如 果 缺 失 的 变量 是 离散 型 ， 则 可 以 考虑 
用 众 数 蔡 换 缺 失 值 ， 如 果 缺 失 的 变量 是 数值 型 ， 则 可 以 考虑 使 用 均值 或 中 位 数 替 换 缺 失 值 ; 三 是 插 
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补 法 , 即 运用 模型 方法 , 基于 未 缺失 的 变量 预测 缺失 变量 的 值 , 如 常见 的 回归 插 补 法 、 多 重 插 补 法 、 
拉 格 朗 日 插 补 法 等 。 
由 于 收入 数据 集中 的 3 个 缺失 变量 都 是 离散 型 变量 ,这 里 不 妨 使 用 各 自 的 众 数 来 替换 缺失 值 : 
# 缺失 值 处 理 
income.fillna(value = {'workclass':income.workclass.mode() [0], 
"occupation' :income .occupation.mode () [0], 


"native-country' :income['native-country'] .mode() [0]}, 
inplace = True) 


2.2.2 ”数据 的 探索 性 分 析 


在 上 面 的 数据 清洗 过 程 中 ， 对 缺失 值 采用 了 蔡 换 处 理 的 方法 ， 接 下 来 对 居民 收入 数据 集 做 简 
单 的 探索 性 分 析 ， 目 的 是 了 解数 据 背后 的 特征 ， 如 数据 的 集中 趋势 、 离 散 趋 势 、 数 据 形状 和 变量 间 
的 关系 等 。 

首先 ， 需 要 知道 每 个 变量 的 基本 统计 值 ， 如 均值 、 中 位 数 、 众 数 等 ， 只 有 了 解 了 所 需 处 理 的 
数据 特征 ， 才 能 做 到 “心中 有 数 ”: 

# 数值 型 变量 的 统计 描述 ， 参 见 表 2-3。 


income .describe() 


表 2-3 数值 变量 的 统计 描述 
































age fniwgt education-num | capital-gain |capital-loss |hours-per-week 

count| 32561.000000| 3.256100e+04| 32561.000000 |32561.000000|32561.000000|32561.000000 
mean | 38.581647 1.897784e+05| 10.080679 1077.648844 |87.303830 40.437456 

std |13.640433 1.055500e+05|2.572720 7385.292085 |402.960219 |12.347429 

min |17.000000 1.228500e+04|1.000000 0.000000 0.000000 1.000000 

25% |28.000000 1.178270e+05|9.000000 0.000000 0.000000 40.000000 

50% |37.000000 1.783560e+05| 10.000000 0.000000 0.000000 40.000000 

75% |48.000000 2.370510e+05| 12.000000 0.000000 0.000000 45.000000 

max |90.000000 1.484705e+06| 16.000000 99999.000000 | 4356.000000 |99.000000 























如 表 2-3 所 示 ， 描 述 了 有 关 数 值 型 变量 的 简单 统计 值 ， 包 括 非 缺 失 观测 的 个 数 〈count) 、 平 
均值 (mean) 、 标 准 差 (std) 、 最 小 值 (min) 、 下 四 分 位 数 (25%) 、 中 位 数 〈50%) 、 上 四 分 
位 数 (75%) 和 最 大 值 (max) 。 以 3 万 多 居民 的 年 龄 为 例 ， 他 们 的 平均 年 龄 为 38.6 岁 ; 最 小 年 龄 
为 17 岁 ; 最 大 年 龄 为 90 岁 ; 四 分 之 一 的 居民 年 龄 不 超过 28 岁 ; 一 半 的 居民 年 龄 不 超过 37 岁 ; 四 
分 之 三 的 居民 年 龄 不 超过 48 岁 ; 并 且 年 龄 的 标准 差 为 13.6 岁 。 同 理 ， 读 者 也 可 以 类 似 地 解释 其 他 
数值 变量 的 统计 值 。 

接 下 来 ， 再 来 看 看 数据 集中 离散 型 变量 的 描述 性 统计 值 : 


# 离散 型 变量 的 统计 描述 ， 见 表 2-4。 
income.describe(include =[ 'object']) 
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表 2-4 ”高 散 变 量 的 统计 描述 








workclass| education| marital-status 。 | occupation |relationship | race |sex |native-country |income 
count |32561 |32561 |32561 32561 32561 32561| 32561| 32561 32561 
unique|8 16 7 14 6 5 |2 4 2 








top |Prvate |HS-grad |Maried-civ-spouse| Profspecialty |Husband |White | Male |United-States | <=50K 
freq |24532 |10501 |14976 5983 13193 27816|21790|29753 24720 









































如 表 2-4 所 示 , 得 到 的 是 关于 离散 变量 的 统计 值 ， 包含 每 个 变量 非 缺 失 观 测 的 数量 (count) 、 
不 同 离散 值 的 个 数 (unique) 、 出 现 频次 最 高 的 离散 值 (top) 和 最 高 频次 数 (freq) 。 以 受 教育 水 
平 变量 为 例 ， 一 共有 16 种 不 同 的 教育 水 平 ，3 万 多 居民 中 ， 高 中 毕业 的 学 历 是 出 现 最 多 的 ; 并且 
一 共有 10 501 名 。 

数据 的 分 布 形状 〈 如 偏 度 、 峰 度 等 ) 可 以 通过 可 视 化 的 方法 进行 展现 ， 这 里 仅 以 被 调查 居民 
的 年 龄 和 每 周 工作 小 时 数 为 例 ， 绘 制 各 自 的 分 布 形状 图 : 


# 导入 绘图 模块 
import matplotlib.pyplot as plt 
# 设置 绘图 风格 
plt.style.use('ggplot') 
# 设置 多 图 形 的 组 合 
fig, axes = plt.subplots(2, 1) 
# 绘制 不 同 收入 水 平 下 的 年 龄 核 密度 图 
income .age [income .income == ' <=50K'] .plot (kind = 'kde', label = '<=50K', ax = axes[0], 
legend = True, linestyle = '-') 
income .age [income .income == ' >50K'] .plot (kind = 'kde', label = '>50K', ax = axes[0], 
legend = True, linestyle = '--') 
# 绘制 不 同 收入 水 平 下 的 周 工作 小 时 数 核 密度 图 
income['hours-per-week'] [income .income == ' <=50K'] .plot (kind = 'kde', label = '<=50K', 
ax = axes[1], legend = True, 
linestyle = '-') 
income['hours-per-week'] [income .income == ' >50K'] .plot (kind = 'kde', label = '>50K', 
ax = axes[1], legend = True, 
linestyle = '--') 


# 显示 图 形 
plt.show() 
见 图 2-8。 
一 <=50K 
>50K 
NN 
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如 图 2-8 所 示 ， 第 一 幅 图 展现 的 是 ， 在 不 同 收入 水 平 下 ,年 龄 的 核 密度 分 布 图 ， 对 于 年 收入 超 
过 5 万 美元 的 居民 来 说 ， 他 们 的 年 龄 几乎 呈现 正 态 分 布 ， 而 收入 低 于 5 万 美元 的 居民 , 年 龄 呈现 右 
偏 特 征 ， 即 年 龄 偏 大 的 居民 人 数 要 比 年 龄 偏 小 的 人 数 多 ; 第 二 幅 图 展现 了 不 同 收入 水 平 下 ， 周 工作 
小 时 数 的 核 密度 图 ， 很 明显 ， 两 者 的 分 布 趋势 非常 相似 ， 并 且 出 现 局 部 峰值 。 如 果 读 者 需要 研究 其 
他 数值 型 变量 的 分 布 形状 ， 按 照 上 面 的 代码 稍 做 修改 即 可 。 

同 理 ， 也 可 以 针对 离散 型 变量 ， 对 比 居民 的 收入 水 平 高 低 在 性 别 、 种 族 状态 、 家 庭 关 系 等 方 
面 的 差异 ， 进 而 可 以 发 现 这 些 离散 变量 是 否 影响 收入 水 平 : 

# 构造 不 同 收入 水 平 下 各 种 族人 数 的 数据 

race = pd.DataFrame (income.groupby(by = ['race','income']) .aggregate(np.size).loc[:,'age']) 

# 重 设 行 索引 

race = race.reset_index() 

# 变量 重 命名 

race.rename (columns={'age':'counts'}, inplace=True) 


# 排序 


race.sort values(by = ['race','counts'], ascending=False, inplace=True) 





# 构造 不 同 收入 水 平 下 各 家 庭 关 系 人 数 的 数据 
relationship = pd.DataFrame (income.groupby (by = 
['relationship','income']) .aggregate (np.size).loc[:,'age']) 
relationship = relationship.reset index() 
relationship.rename (columns={'age':'counts'}, inplace=True) 
relationship.sort values(by = ['relationship','counts'], ascending=False, inplace=True) 


# 设置 图 框 比例 ， 并 绘图 

plt.figure (figsize=(9,5)) 

sns.barplot (x="race", y="counts", hue = 'income', data=race) 
plt.show() 


plt.figure (figsize=(9,5)) 


sns.barplot (x="relationship", y="counts", hue = 'income', data=relationship) 
plt.show() 


见 图 2-9。 


ne 


Lb. .ll 








p 


图 2-9 收入 水 平 的 对 比 条 形 图 


左 图 反映 的 是 相同 的 种 族 下 ， 居 民 年 收入 水 平 高 低 的 人 数 差 异 ; 右 图 反映 的 是 相同 的 家 庭 成 
员 关系 下 ， 居 民 年 收入 水 平 高 低 的 人 数 差异 。 但 无 论 怎么 比较 ， 都 发 现 一 个 规律 ， 即 在 某 一 个 相同 
的 水 平 下 《如 白 种 人 或 未 结婚 人 群 中 )， 年 收入 低 于 5 万 美元 的 人 数 都 要 比 年 收入 高 于 5 万 美元 的 
人 数 多 ， 这 个 应 该 是 抽样 导致 的 差异 〈 数 据 集中 年 收入 低 于 5 万 和 高 于 5 万 的 居民 比例 大 致 在 
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75%:25%) 。 如 果 读 者 需要 研究 其 他 离散 型 变量 与 年 收入 水 平 的 关系 ， 可 以 稍稍 修改 上 面 的 代码 ， 
实现 可 视 化 的 绘制 。 


2.2.3 ”数据 建 模 


1. 对 离散 变量 重 编码 

前 面 提 到 ， 由 于 收入 数据 集中 有 很 多 离散 型 变量 ， 这 样 的 字符 变量 是 不 能 直接 用 于 建 模 的 ， 
需要 对 这 些 变量 进行 重 编码 ， 关 于 重 编码 的 方法 有 多 种 ,如 将 字符 型 的 值 转换 为 整数 型 的 值 、 哑 变 
量 处 理 〈0-1 变量 ) 、One-Hot 热 编 码 〈 类 似 于 哑 变 量 ) 等 。 在 本 案例 中 ， 将 采用 “字符 转 数 值 ” 
的 方法 对 离散 型 变量 进行 重 编码 ， 具 体 可 以 通过 下 面 的 代码 实现 : 

# 离散 变量 的 重 编码 ， 见 表 2-5 

for feature in income.columns: 

if income [feature] .dtype == 'object': 


income [feature] = pd.Categorical (income[feature]) .codes 
income.head() 


表 2-5 离散 变量 的 数值 化 编码 




















age | workclass |fniwgt |education ee ei occupation |relationship |race | sex me ee ek tae income 
olae le 77516 |9 13 4 0 1 4 |1 |2174 lo 40 38 0 
1|s0 |s 83311 [9 13 2 3 0 4 [1 lo 0 13 38 0 
2|38 |3 215646|11 9 0 5 1 4 [1 lo 0 40 38 0 
3|53 [3 234721|1 7 2 5 0 2 [1 | 0 40 38 0 
4|28 [3 338409|9 13 2 9 5 2 lo lo 0 40 4 0 





















































表 2-5 中 的 结果 就 是 对 字符 型 离散 变量 的 重 编码 效果 ,所 有 的 字符 型 变量 都 变 成 了 整数 型 变量 ， 
如 workclass、education、marital-status 等 ， 接 下 来 就 基于 这 个 处 理 好 的 数据 集 对 收入 水 平 income 
进行 预测 。 

在 原本 的 居民 收入 数据 集中 , 关于 受 教育 程度 的 有 两 个 变量 , 一 个 是 education (教育 水 平 ) ， 
另 一 个 是 education-num 〈 受 教育 时 长 ) ， 而 且 这 两 个 变量 的 值 都 是 一 一 对 应 的 ， 只 不 过 一 个 是 字 
符 型 ， 另 一 个 是 对 应 的 数值 型 ， 如 果 将 这 两 个 变量 都 包含 在 模型 中 的 话 ， 就 会 产生 信息 的 元 余 ; 
名 lwgt 变量 代表 的 是 一 种 序号 ， 其 对 收入 水 平 的 高 低 并 没有 实际 意义 。 故 为 了 避免 元 余 信息 和 无 意 
义 变量 对 模型 的 影响 ， 考 虑 将 education 变量 和 flwgt 变量 从 数据 集中 删除 : 

# 删除 变量 


income.drop(['education', 'fnlwgt'], axis = 1, inplace = True) 
income.head () 


见 表 2-6。 
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表 2-6 数据 集 的 前 5 行 预览 

















education- |marital- 和 capital- |capital- |hours-per- |native- 局 
age| workclass occupation | relationship| race| sex| “°F income 
num status gain loss week country 
0|39 |6 13 4 0 1 4 |1 |2174 0 40 38 0 
1|so |5 13 有 3 0 4 |1 lo 0 13 38 0 
2|38 |3 9 0 5 1 4 |1 lo 0 40 38 0 
3|53 |3 7 5 0 2 |1 lo 0 40 38 0 
4|28 |3 13 2 9 5 2 lo | 0 40 4 0 





















































表 2-6 中 呈现 的 就 是 经 处 理 “ 和 干净” 的 数据 集 ， 所 要 预测 的 变量 就 是 income， 该 变量 是 二 元 
变量 ， 对 其 预测 的 实质 就 是 对 年 收入 水 平 的 分 类 (一 个 新 样本 进来 ,通过 分 类 模型 ， 可 以 将 该 样本 
分 为 哪 一 种 收入 水 平 ) 。 

关于 分 类 模型 有 很 多 种 ， 如 Logistic 模型 、 决 策 树 、K 近邻 、 朴 素 贝 叶 斯 模型 、 支 持 向 量 机 、 
随机 森林 、 梯 度 提升 树 GBDT 模型 等 。 本 案例 将 对 比 使 用 K 近邻 和 GBDT 两 种 分 类 器 ， 因 为 通常 
情况 下 ， 都 会 选用 多 个 模型 作为 备 选 , 通过 对 比 才能 得 知 哪 种 模型 可 以 更 好 地 拟 合 数据 。 接 下 来 就 
进一步 说 明 如 何 针对 分 类 问题 ， 从 零 开始 完成 建 模 的 步骤 。 

2. 拆 分 数据 集 

基于 上 面 的 “干净 ”数据 集 ， 需 要 将 其 拆 分 为 两 个 部 分 ， 一 部 分 用 于 分 类 器 模型 的 构建 ， 另 
一 部 分 用 于 分 类 器 模型 的 评估 , 这 样 做 的 目的 是 避免 分 类 器 模型 过 拟 合 或 欠 拟 合 。 如 果 模 型 在 训练 
集 上 表现 很 好 ， 而 在 测试 集中 表现 很 差 ， 则 说 明 分 类 器 模型 属于 过 拟 合 状态 ; 如 果 模 型 在 训练 过 程 
中 都 不 能 很 好 地 拟 合 数 据 ， 那 说 明 模 型 属于 欠 拟 合 状 态 。 通常 情况 下 , 会 把 训练 集 和 测试 集 的 比例 
分 配 为 75% 和 25%: 

# 导入 sklearn 包 中 的 函数 


from sklearn.model selection import train test split 





# 数据 拆 分 

Xx train, X test, y train, y test = train test split(income.loc[:,'age':'native-country'], 
income['income'], train size = 0.75, 
random state = 1234) 

print (' 训 练 数据 集 共有 %a 条 观测 ' %X_train. shape [0]) 

print (' 测 试 数据 集 共 有 sd 条 观测 ' %X_test.shape [0]) 


out: 

训练 数据 集 共有 24420 条 观测 

测试 数据 集 共有 8141 条 观测 

结果 显示 ， 运 用 随机 抽样 的 方法 ， 将 数据 集 拆 分 为 两 部 分 ， 其 中 训练 数据 集 包含 24 420 条 样 
本 ， 测 试 数据 集 包含 8 141 条 样本 ， 下 面 将 运用 拆 分 好 的 训练 数据 集 开 始 构建 K 近邻 和 GBDT 两 

3. 默认 参数 的 模型 构建 

# 导入 KK 近邻 模型 的 类 


from sklearn.neighbors import KNeighborsClassifier 


# 构建 K 近 邻 模型 
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kn = KNeighborsClassifier() 
kn.fit(X train, y train) 
print (kn) 


out: 
KNeighborsClassifier(algorithm='auto', leaf size=30, metric='minkowski', 
metric params=None, n jobs=1, n neighbors=5, p=2, 
weights='uniform') 
首先 , 针对 K 近邻 模型 , 这 里 直接 调用 sklearn 子 模块 neighbors 中 的 KNeighborsClassifier 类 ， 
并 且 使 用 模型 的 默认 参数 ， 即 让 K 近邻 模型 自动 挑选 最 佳 的 搜寻 近邻 算法 (algorithm='auto') 、 使 
用 欧 氏 距离 公式 计算 样本 间 的 距离 (p=2) 、 指 定 未 知 分 类 样本 的 近邻 个 数 为 5 (n_neighbors=5) 
而 
论 











是 所 有 近邻 样本 的 权重 都 相等 〈weights='uniform') 。 如 果 读 者 想 了 解 更 多 有 关 K 近邻 算法 的 理 
可 以 翻阅 第 11 章 。 
# 导入 GBDT 模型 的 类 


from sklearn.ensemble import GradientBoostingClassifier 





# 构建 GBDT 模型 

gbdt = GradientBoostingClassifier() 
gbat .fit (Xx train, y train) 

print (gbat) 


out: 

GradientBoostingClassifier(init=None, learning rate=0.1, loss='deviance', 

max depth=3, max features=None, max leaf nodes=None, 

min samples leaf=]1, min samples split=2, 

min weight fraction leaf=0.0, n estimators=100, 
presort='auto', random state=None, subsample=1.0, verbose=0, 
warm_start=False) 

其 次 ,针对 GBDT 模型 ,可 以 调用 sklearn 子 模块 ensemble 中 的 GradientBoostingClassifier 类 ， 
同样 先 尝 试 使 用 该 模型 的 默认 参数 ， 即 让 模型 的 学 习 率 〈 迭 代步 长 ) 为 0.1 (leaming_rate=0.1) 、 
损失 函数 使 用 的 是 对 数 损失 函数 (loss='deviance') 、 生 成 100 棵 基础 决策 树 Cn_estimators=100) ， 
并 且 每 棵 基础 决策 树 的 最 大 深度 为 3 (max_depth=3) ， 中 间 节 点 《〈 非 叶 节 点 ) 的 最 小 样本 量 为 2 

Cmin_samples_split=2) ， 叶 节点 的 最 小 样本 量 为 1 (min_samples_leaf-1) ， 每 一 棵 树 的 训练 都 不 
会 基于 上 一 棵 树 的 结果 (warm_start=False) 。 如 果 读者 想 继续 了 解 更 多 GBDT 相关 的 理论 知识 点 ， 
可 以 参考 第 14 章 。 

如 上 近邻 模型 和 GBDT 模型 都 是 直接 调用 第 三 方 模块 , 并且 都 是 基于 默认 参数 的 模型 构建 ， 
虽然 这 个 方法 可 行 , 但 是 往往 有 时 默认 参数 并 不 能 得 到 最 佳 的 拟 合 效 果 。 所 以 ， 需 要 不 停 地 调整 模 
型 参数 , 例如 K 近邻 模型 设置 不 同 的 K 值 \GBDT 模型 中 设置 不 同 的 学 习 率 、 基 础 决策 树 的 数量 、 
基础 决策 树 的 最 大 深度 等 。 然后 基于 这 些 不 同 的 参数 值 , 验证 哪 种 组 合 的 参数 会 得 到 效果 最 佳 的 模 
型 ， 看 似 可 以 通过 for 循环 依次 迭代 来 完成 ， 但 是 效率 会 比较 慢 。 一 个 好 消息 是 ， 读 者 可 以 不 用 手 
写 for 循环 ， 找 到 最 佳 的 参数 ， 在 Python 的 sklearn 模块 中 提供 了 网 格 搜索 法 ， 目 的 就 是 找到 上 面 
提 到 的 最 佳 参数 。 接 下 来 ， 就 带 着 大 家 使 用 Python 中 的 网 格 搜索 法 来 完成 模型 的 参数 选择 。 


4. 模型 网 格 搜索 
同样 , 先 对 开 近 邻 模型 的 参数 进行 网 格 搜索 ,这 里 仅 考虑 模型 中 mn_neighbors 参数 的 不 同 选择 。 
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执行 脚本 


如 下 : 


# K 近邻 模型 的 网 格 搜索 法 
# 导入 网 格 搜索 法 的 函数 


from 


sklearn.grid search import GridSearchCV 


# 选择 不 同 的 参数 

k options = list (range(1,12)) 
parameters = {'n neighbors':k options} 
# 搜索 不 同 的 K 值 


grid kn = GridSearchCV (estimator = KNeighborsClassifier(), param grid = parameters, cv=10, 


scoring=" 


accuracy') 


grid kn.fit(X train, y train) 
# 结果 输出 


grid kn.grid scores , grid kn.best params , grid kn.best score_ 


out: 


([mean: 0.81478, std: 0.00641, params: {'n neighbors': 1}, 
mean: 0.83845, std: 0.00702, params: {'n neighbors': 2}, 


mean: 0.83698, std: 0.00852, params: {'n neighbors': 3}, 
mean: 0.84521, std: 0.00977, params: {'n neighbors': 4}, 
mean: 0.84201, std: 0.00817, params: {'n neighbors': 5}, 
mean: 0.84771, std: 0.00842, params: {'n neighbors': 6}, 
mean: 0.84431, std: 0.00694, params: {'n_neighbors': 7}， 
mean: 0.84558, std: 0.00746, params: {'n neighbors': 8}, 
mean: 0.84476, std: 0.00688, params: {'n neighbors': 9}, 





mean: 0.84640, std: 0.00552, params: {'n neighbors': 10}, 
mean: 0.84529, std: 0.00487, params: {'n neighbors': 11}], 
{'n neighbors': 6}, 
0.84770679770679769) 


简单 解释 一 下 GridSearchCV 函数 中 的 几 个 参数 含义 ，estimator 参数 接受 一 个 指定 的 模型 ， 这 


里 为 K 近邻 模型 的 类 ;，param_grid 用 来 指定 模型 
n_neighbors 参数 的 11 种 可 能 值 ，cv 是 指 网 格 搜索 


的 度量 值 





要 搜索 的 参数 列表 对 象 ， 这 里 是 K 近邻 模型 中 
需要 经 过 10 重 交叉 验证 ，scoring 指定 模型 评估 
， 这 里 选用 的 是 模型 预测 的 准确 率 。 


通过 网 格 搜索 的 计算 ， 得 到 三 部 分 的 结果 ， 第 一 部 分 包含 了 11 种 K 值 下 的 平均 准确 率 (因为 


做 了 10 村 
的 最 佳 平 





EE 交 又 验证) ; 第 二 部 分 选择 出 了 最 佳 的 K 值 ，K 值 为 6; 第 三 部 分 是 当 K 值 为 6 时 模型 
均 准 确 率 ， 且 准确 率 为 84.78%。 


接 下 来 , 对 GBDT 模型 的 参数 进行 网 格 搜索 , 搜索 的 参数 包含 三 个 , 分 别 是 模型 的 学 习 速 率 、 


生成 的 基 


础 决策 树 个 数 和 每 个 基础 决策 树 的 最 大 深度 。 具 体 执行 代码 如 下 : 


# GBDT 模型 的 网 格 搜索 法 

# 选择 不 同 的 参数 

learning rate options = [0.01,0.05,0.1] 

max_depth options = [3,5,7,9] 

n_estimators options = [100,300,500] 

parameters = {'learning rate':learning rate options, 'max depth':max depth options, 


'n_estimators':n estimators options} 


grid gbdt = GridsearchCV (estimator = GradientBoostingClassifier(), param grid = parameters, 


cv=10, scoring="'accuracy') 


grid gbdt.fit(X train, y train) 
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# 结果 输出 
grid gbdt.grid scores , grid gbdt.best params , grid gbdt.best score_ 


out: 
([mean: 0.84267, std: 0.00727, params: {'max depth': 3, 'learning rate': 0.01, 'n estimators': 
100}, 
mean: 0.85393, std: 0.00826, params: {'max depth': 3, 'learning rate': 0.01, 'n estimators': 
300}, 
mean: 0.85950, std: 0.00743, params: {'max_depth': 3, 'learning rate': 0.01, 'n_estimators': 
500}, 
mean: 0.85135, std: 0.00817, params: {'max depth': 5, 'learning rate': 0.01, 'n estimators': 
100}, 
mean: 0.86241, std: 0.00818, params: {'max depth': 5, 'learning rate': 0.01, 'n estimators': 
300}, 
mean: 0.86900, std: 0.00772, params: {'max depth': 5, 'learning rate': 0.01，'n_estimators' : 
500}, 
mean: 0.85389, std: 0.00726, params: {'max depth': 7, 'learning rate': 0.01, 'n estimators': 
100}, 
mean: 0.86941, std: 0.00946, params: {'max depth': 7, 'learning rate': 0.01, 'n_estimators': 
300}, 


ean 0.87133, std: 0.01022, params: {'max depth': 9, 'learning rate': 0.1, 'n estimators': 
100}, 

mean: 0.85811, std: 0.01004, params: {'max depth': 
300}, 

mean: 0.85442, std: 0.00941, params: {'max depth': 
500}], 

{'learning rate': 0.05, 'max depth': 5, 'n estimators': 300}, 

0.87506142506142504) 

输出 的 结果 与 K 近邻 结构 相似 ， 仍 然 包 含 三 个 部 分 。 限 于 篇 幅 的 影响 ， 上 面 的 结果 中 并 没有 
显示 所 有 参数 的 组 合 ， 从 第 二 部 分 的 结果 可 知 ， 最 佳 的 模型 学 习 率 为 0.05， 生 成 的 基础 决策 树 个 数 
为 300 棵 , 并 且 每 棵 基础 决策 树 的 最 大 深度 为 5。 这 样 的 组 合 可 以 使 GBDT 模型 的 平均 准确 率 达到 
87.51%。 

6. 模型 预测 与 评估 

上 文中 ， 我 们 花 了 一 部 分 的 篇 幅 来 介绍 基于 “干净 ”数据 集 的 模型 构建 ， 下 一 步 要 做 的 就 是 
使 用 得 到 的 分 类 器 对 测试 数据 集 进行 预测 ,进而 验证 模型 在 样本 外 的 表现 能 力 , 同时 ,也 可 以 从 横 
向 的 角度 来 比较 模型 之 间 的 好 坏 。 

通常 ， 验 证 模型 好 坏 的 方法 有 多 种 。 例 如 ， 对 于 预测 的 连续 变量 来 说 ， 常 用 的 衡量 指标 有 均 
方 误差 (MSE) 和 均 方 根 误差 (RMSE》; 对 于 预测 的 分 类 变量 来 说 ， 常 用 的 衡量 指标 有 混淆 矩阵 
中 的 准确 率 、ROC 曲线 下 的 面积 AUC、K-S 值 等 。 接 下 来 ， 依 次 对 上 文中 构建 的 四 种 模型 进行 预 
测 和 评估 。 

7. 默认 的 K 近邻 模型 


# KK 近 邻 模型 在 测试 集 上 的 预测 
kn pred = kn.predict(X test) 
print (pd.crosstab(kn pred, y test)) 


» 


, "learning rate': 0.1, 'n estimators': 


o 


, "learning rate': 0.1, 'n estimators': 


# 模型 得 分 


24 | 从 零 开始 学 Python 数据 分 析 与 挖掘 





Print (" 模 型 在 训练 集 上 的 准确 率 sf' skn.score(X train,y train) ) 
print (' 模 型 在 测试 集 上 的 准确 率 $f' Skn.score(X test,y_test)) 











见 表 2-7。 
表 2-7 KNN 算法 的 混淆 矩阵 
<=50K >50K 
模型 在 训练 集 上 的 准确 率 0.890500 
模型 在 测试 集 上 的 准确 率 0.838840 


如 上 结果 所 示 ， 第 一 部 分 是 混淆 矩阵 ， 和 矩阵 中 的 行 是 模型 的 预测 值 ， 和 矩阵 中 的 列 是 测试 集 的 
实际 值 ， 主 对 角 线 就 是 模型 预测 正确 的 数量 (5637 和 1192) ，589 和 723 就 是 模型 预测 错误 的 数 
量 。 经 过 计算 ,得 到 第 二 部 分 的 结论 ， 即 模型 在 训练 集中 的 准确 率 为 89.1%， 但 在 测试 集 上 的 错误 
率 超 过 16% (1-0.839) ， 说 明 默 认 参数 下 的 KNN 模型 可 能 存在 过 拟 合 的 风险 。 

模型 的 准确 率 就 是 基于 混淆 矩阵 计算 的 ， 但 是 该 方法 存在 一 定 的 弊端 ， 即 如 果 数 据 本 身 存在 
一 定 的 不 平衡 时 〈 正 负 样 本 的 比例 差异 较 大 ) ， 一 定 会 导致 准确 率 很 高 ， 但 并 不 一 定 说 明 模 型 就 是 
理想 的 。 这 里 再 介绍 一 种 常用 的 方法 ， 就 是 绘制 ROC 曲线 ， 并 计算 曲线 下 的 面积 AUC 值 : 

# 导入 模型 评估 模块 


from sklearn import metrics 





# 计算 ROC 曲线 的 x 轴 和 Y 轴 数据 

fpr, tpr, _ = metrics.roc curvely test, kn.predict proba(X test)[:,1]) 
# 绘制 ROC 曲线 

plt.plot (fpr, tpr, linestyle = 'solid', color = 'red') 

# 添加 阴影 

plt.stackplot (fpr, tpr, color = 'steelblue') 

# 绘制 参考 线 

plt.plot ([0,1], [0,1], linestyle = 'dashed', color = 'black') 

# 往 图 中 添加 文本 

plt.text (0.6,0.4,'AUC=$.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18)) 
plt.show() 


见 图 2-10。 





2-10 KNN 算法 的 ROC 曲线 
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图 2-10 中 绘制 了 模型 的 ROC 曲线 ， 经 计算 得 知 ， 该 曲线 下 的 面积 AUC 为 0.865。 如 果 读 者 
使 用 AUC 来 评估 模型 的 好 坏 ， 那 应 该 希望 AUC 越 大 越 好 。 一 般 而 言 ， 当 AUC 的 值 超过 0.8 时 ， 
基本 上 就 可 以 认为 模型 比较 合理 。 所 以 ， 基 于 默认 参数 的 K 近邻 模型 在 居民 收入 数据 集 上 的 表现 
还 算 理想 。 


8. 网 格 搜索 的 K 近邻 模型 


# 预测 测试 集 
grid kn pred = grid kn.predict (Xx test) 
print (pd.crosstab(grid kn pred, y test)) 


# 模型 得 分 
print (' 模 型 在 训练 集 上 的 准确 率 %f' %griqd kn.score(X train,y train)) 
print (' 模 型 在 测试 集 上 的 准确 率 %3f' s%grid kn.score(X test,y test)) 


# 绘制 ROC 曲线 

fpr, tpr, _ = metrics.roc curvely test, grid kn.predict proba(X test)[:,1]) 
plt.plot (fpr, tpr, linestyle = 'solid', color = 'red') 

plt.stackplot (fpr, tpr, color = 'steelblue') 

plt.plot ([0,1],[0,1], linestyle = '‘'dashed', color = 'black') 

plt.text (0.6,0.4,'AUC=$%.3f' $ metrics.auc(fpr,tpr), fontdict = dict(size = 18)) 





plt. show!() 
见 表 2-8。 
表 2-8 网 格 搜 索 KNN 算法 的 混淆 矩阵 
模型 在 训练 集 上 的 准确 率 0.882473 
模型 在 测试 集 上 的 准确 率 0.845351 
见 图 2-11。 
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2-11 网 格 搜索 KNN 算法 的 ROC 曲线 
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相 比 于 默认 参数 的 K 近邻 模型 来 说 , 经 过 网 格 搜索 后 的 模型 在 训练 数据 集 上 的 准确 率 下 降 了 ， 
但 在 测试 数据 集 上 的 准确 率 提高 了 , 这 也 是 我 们 所 期 望 的 , 说 明 优化 后 的 模型 在 预测 效果 上 更 加 优 
秀 ， 并 且 两 者 差异 的 缩小 也 能 够 降低 模型 过 拟 合 的 可 能 。 再 来 看 看 ROC 曲线 下 的 面积 ， 网 格 搜索 
后 的 KK 近邻 模 型 所 对 应 的 AUC 为 0.87， 相 比 于 原先 的 KNN 模型 提高 了 一 点 。 所 以 ， 从 模型 的 稳 
定性 来 看 ， 网 格 搜索 后 的 K 近邻 模型 比 原始 的 K 近邻 模型 更 加 优秀 。 


10. 默认 的 GBDT 模型 


# 预测 测试 集 
gbdt pred = gbdt.predict (xX test) 
Print (pd.crosstab(gbdt pred, y test)) 


# 模型 得 分 
print (' 模 型 在 训练 集 上 的 准确 率 $f' sgbdt.score(X train,y train)) 
print (' 模 型 在 测试 集 上 的 准确 率 %3f' s%gbdt.score(X test,y test)) 


# 绘制 ROC 曲线 

fpr, tpr, _ = metrics.roc curvel(ly test, gbdt.predict proba(X test)[:,1]) 
plt.plot (fpr, tpr, linestyle = 'solid', color = 'red') 

plt.stackplot (fpr, tpr, color = 'steelblue') 

plt.plot ([0,1],[0,1], linestyle = 'dashed', color = 'black') 

plt.text (0.6,0.4,'AUC=$%.3f' $% metrics.auc(fpr,tpr), fontdict = dict(size = 18)) 
plt.show() 


见 表 2-9。 


表 2-9 GBDT 算 法 的 混淆 矩阵 


[js | 
5862 





13l 


模型 在 训练 集 上 的 准确 率 0.869451 
模型 在 测试 集 上 的 准确 率 0.858985 


见 图 2-12。 
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图 2-12 GBDT 算 法 的 ROC 曲线 
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如 上 结果 所 示 ， 集 成 算法 GBDT 在 测试 集 上 的 表现 明显 要 比 K 近邻 算法 优秀 ， 这 就 是 基于 多 
棵 决策 树 进行 投票 的 优点 。 该 模型 在 训练 集 和 测试 集 上 的 表现 都 非常 好 ， 准 确 率 均 超 过 85%， 而 
且 AUC 值 也 是 前 面 两 种 模型 中 最 高 的 ， 达 到 了 0.913。 


11. 网 络 搜索 的 GBDT 模型 


# 预测 测试 集 
grid gbdt pred = grid gbdt.predict (X test) 
print (pd.crosstab(grid gbdt pred, y test)) 


# 模型 得 分 
print (' 模 型 在 训练 集 上 的 准确 率 %f' %grid gbdt.score(X train,y train)) 
print (' 模 型 在 测试 集 上 的 准确 率 %f' s%grid gbdt.score(X test,y_test)) 


# 绘制 ROC 曲线 

fpr, tpr, _ = metrics.roc curvel(ly test, grid gbdt.predict proba(X test)[:,1]) 
Pplt.plot (fpr, tpr, linestyle = 'solid', color = 'red') 

plt.stackplot (fpr, tpr, color = 'steelblue') 

plt.plot ([0,1],[0,1], linestyle = ‘dashed', color = 'black') 

Plt.text (0.6,0.4,'AUC=%.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18)) 
plt.show() 


见 表 2-10。 


表 2-10 ”网 格 搜索 GBDT 算法 的 混淆 矩阵 





模型 在 训练 集 上 的 准确 率 0.890336 
模型 在 测试 集 上 的 准确 率 0.870900 


见 图 2-13。 
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图 2-13 网 格 搜索 GBDT 算法 的 ROC 曲线 
如 上 展示 的 是 基于 网 格 搜 索 后 的 GBDT 模型 的 表现 ， 从 准确 率 来 看 ， 是 4 个 模型 中 表现 最 佳 
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的 ， 该 模型 在 训练 集 上 的 准确 率 接近 90%, 同时 , 在 测试 集 上 的 准确 率 也 超过 87%; 从 绘制 的 ROC 
曲线 来 看 ，AUC 的 值 也 是 最 高 的 ， 超 过 0.92。 

不 论 是 K 近邻 模型 ， 还 是 梯度 提升 树 GBDT 模型 ， 都 可 以 通过 网 格 搜索 法 找到 各 自 的 最 佳 模 
型 参数 ， 而 且 这 些 最 佳 参数 的 组 合 一 般 都 会 使 模型 比较 优秀 和 健壮 。 所 以 ， 纵 向 比较 默认 参数 的 模 
型 和 网 格 搜索 后 的 最 佳 参数 模型 ,后 者 可 能 是 比较 好 的 选择 (尽管 后 者 可 能 会 花费 更 多 的 运行 时 间 ); 
横向 比较 单一 模型 和 集成 模型 ， 集 成 模型 一 般 会 比 单一 模型 表现 优秀 。 


2.3 本章 小 结 


本 章 解 决 的 是 一 个 分 类 问题 的 预测 ， 通 过 实际 的 案例 介绍 了 有 关 数 据 挖 掘 的 重要 流程 ， 包 括 
数据 的 清洗 、 数 据 的 探索 性 分 析 、 模 型 构建 和 模型 的 评估 。 通 过 本 章 的 学 习 ， 进 一 步 加 强 对 数据 挖 
气流 程 的 理解 ， 以 便 读者 在 实际 的 学 习 和 工作 中 能 够 按部就班 地 完成 数据 挖掘 任务 。 


Python 快速 入 门 


本 章 重点 介绍 有 关 Python 的 基础 知识 ， 这 是 每 一 个 Python 用 户 所 要 走 过 的 必 经 之 路 ， 因 为 任 
何 一 段 Python 代码 中 都 会 包含 一 些 基础 知识 。 对 于 读者 来 说 ， 只 有 基础 夯实 牢 了 ， 在 之 后 的 代码 
编程 中 才 会 轻松 自如 。 如 果 你 是 从 零 开 始 的 Python 用 户 ， 希 望 能 够 认真 学 完 本 章 的 Python 入 门 基 
础 知识 ， 相 信 本 章 内 容 对 你 将 有 很 大 的 帮助 ; 如 果 你 是 Python 的 中 级 或 高 级 用 户 ， 通 过 本 章 内 容 
的 阅读 ， 也 许多 少 会 有 一 点 查 缺 补漏 的 功效 ， 当 然 读 者 也 可 以 直接 跳 过 本 章 内 容 ,进入 下 一 章节 的 
学 习 。 

通过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 如 下 的 Python 常用 基础 知识 以 及 一 个 简单 的 爬虫 案例 : 
常用 的 数据 结构 及 对 应 方法 ; 
三 种 控制 流 的 使 用 ; 
字符 串 的 常用 处 理 方法 ; 
正则 表达 式 的 使 用 ; 
自 定义 函数 的 编写 ; 
上 海 历 史 天 气 数 据 的 抓 取 。 





3.1 数据 结构 及 方法 


本 节 所 介绍 的 Python 数据 结构 , 并 非 等 同 于 数据 库 中 的 数据 结构 , 而 是 指 列表 、 元 组 和 字典 ， 
它们 都 属于 存储 数据 的 容器 。 如 何 构建 和 灵活 使 用 这 三 种 数据 结构 将 是 本 节 的 主要 内 容 。 








3.1.1 列表 


关于 列表 ， 需 要 对 其 说 明 如 下 三 点 : 
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@ 列表 的 构造 是 通过 英文 状态 下 的 方 括号 完成 的 ， 即 ]。 可 以 将 每 一 个 元 素 存放 在 中 括号 中 ， 
而 且 列表 中 的 元 素 是 不 受 任何 限制 的 ， 可 以 存放 数值 、 字 符 串 及 其 他 数据 结构 的 内 容 。 

”列表 是 一 种 序列 , 即 每 个 列表 元 素 是 按照 顺序 存 入 的 , 这 些 元 素 都 有 一 个 属于 自己 的 位 置 (或 
下 标 )。 

”列表 是 一 种 可 变 类 型 的 数据 结构 ， 即 可 以 实现 对 列表 的 修改 ， 包 括 增加 、 删 除 和 修改 列表 中 
的 元 素 值 。 


“列表 是 一 种 序列 ” 指 的 是 可 以 通过 索引 (或 下 标 ) 的 方式 实现 列表 元 素 的 获取 ，Python 中 
的 索引 都 是 用 英文 状态 下 的 方 括号 表示 ， 而 且 ， 对 于 位 置 索引 来 说 ， 都 是 从 0 开始 。 接 下 来 通过 具 
体 的 例子 来 解释 四 种 常见 的 索引 方式 。 

1. 正 向 单 索引 

正 向 单 索 引 指 的 是 只 获取 列表 中 的 某 一 个 元 素 ， 并 且 是 从 左 到 右 的 方向 数 元 素 所 在 的 位 置 ， 
可 以 用 [表示 ， 例 如 : 

list1 = [" 张 三 '，' 男 ',33， ' 江 苏 ', ' 硕 士 ',' 已 婚 ', [' 身 高 178',' 体 重 72']] 

# 取出 第 一 个 元 素 

print (list1[0]) 

# 取出 第 四 个 元 素 

print (list1[3]) 

# 取出 最 后 一 个 元 素 

print (list1[6]) 

# 取出 “体重 72” 这 个 值 

print (list1[6] [1]) 


江苏 
[' 身 高 178'，' 体 重 72'] 

体重 72 

如 上 结果 显示 ， 变 量 listl 是 一 个 含有 7 个 元 素 的 列表 ， 包 含 字符 串 〈 注 意 ， 字 符 串 必须 用 引 
号 引起 来 ) 、 数 值 和 列表 。 由 于 位 置 索引 是 从 0 开始 ， 所 以 索引 号 与 实际 的 位 置 正好 差 1， 最 后 使 
用 print 函数 将 取 回 的 元 素 打 印 出 来 .列表 中 最 后 一 个 元 素 正好 又 是 一 个 列表 (一 般 称 为 嵌 套 列表 )， 
所 以 要 取出 嵌 套 列表 中 的 元 素 就 需要 两 层 索引 实现 。 

2. 负 向 单 索引 

负 向 单 索引 是 指 在 正 向 单 索引 的 基础 上 添加 一 个 负 号 “-”， 所 表达 的 含义 是 从 右 向 左 的 方向 
获取 元 素 ， 可 以 用 [-n] 表 示 ， 例 如 : 

# 取出 最 后 一 个 元 素 

print (list1[-1]) 

# 取出 “身高 178” 这 个 值 

print (listl[-1][0]) 


# 取出 倒数 第 三 个 元 素 
print (LIistl[-3]) 


out: 


[' 身 高 178'，' 体 重 72'] 
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身高 178 

硕士 

如 果 列 表 元 素 特别 多 ， 而 需要 获取 的 数据 恰好 又 是 最 后 几 个 ， 那 么 负 向 单 索引 就 显得 尤为 方 
便 和 简单 ， 否 则 从 头 开始 数 下 去 ， 就 显得 非常 麻烦 。 注 意 ， 最 后 一 个 列表 元 素 可 以 用 [-1] 表 示 ， 千 
万 不 要 写成 [-0]， 这 是 初学 者 容易 犯错 的 地 方 。 

3. 切片 索引 

切片 索引 指 的 是 按照 固定 的 步 长 ， 连 续 取 出 多 个 元 素 ， 可 以 用 [start:end:step] 表 示 。start 指 索 
取 元 素 的 起 始 位 置 ，end 指 索取 元 素 的 终止 位 置 ( 注 意 ，end 位 置 的 元 素 是 取 不 到 的 ! ) ; step 指 
索取 元 素 的 步 长 ， 默 认为 1， 表 示 逐 个 取出 一 连 串 的 列表 元 素 ; 切片 ， 你 可 以 把 它 理解 成 高 中 所 学 
的 值 域 范围 ， 属 于 左 闭 右 开 的 效果 。 例 如 : 

list2 = [' 江 苏 ',' 安 徽 ',' 浙 江 ',' 上 海 ', ' 山 东 ', ' 山 西 ',' 湖 南 ',' 湖 北 '] 

# 取出 “浙江 ”至 “山西 ”四 个 元 素 

Print (list2[2:6]) 

# 取出 “安徽 “上 海 兴 “山西 ”三 个 元 素 

print (list2[1:6:2]) 


# 取出 最 后 三 个 元 素 
print (list2[-3:-1]) 


out: 

[浙江 '，' 上 海 '，' 山东 ' ，' 山 西 '] 

[安徽 '，' 上 海 '，' 山 西 '] 

[山西 '， "湖南 '] 

如 上 结果 显示 ， 第 一 个 切片 是 逐个 获取 元 素 ， 第 二 个 切片 是 隔 元 素 返 回 ， 第 三 个 切片 并 没有 
获得 所 有 的 最 后 三 个 元 素 , 不 管 你 把 -1 换 成 0 还 是 换 成 别 的 值 , 返回 的 结果 中 都 无 法 得 到 “湖北 ” 
这 个 元 素 。 为 解决 这 个 未 尾 元 素 取 不 到 的 难题 ， 我 们 下 面 介 绍 无 限 索引 。 

4. 无 限 索 引 

无 限 索 引 是 指 在 切片 过 程 中 不 限定 起 始 元 素 的 位 置 或 终止 元 素 的 位 置 ， 甚 至 起 始 和 终止 元 素 
的 位 置 都 不 限定 ， 可 以 用 [::step] 表 示 。 第 一 个 冒号 是 指 从 列表 的 第 一 个 元 素 开始 获 取 ; 第 二 个 冒号 
是 指 到 最 后 一 个 元 素 结束 〈 包 含 最 后 一 个 元 素 值 ) 。 例 如 : 

# 取出 头 三 个 元 素 

print (list2[:3]) 

# 取出 最 后 三 个 元 素 

print (list2[-3:]) 

# 取出 所 有 元 素 

print (list2[::]) 


# 取出 奇数 位 置 的 元 素 
print (list2[::2]) 





out: 

[江苏 '，' 安 徽 '，' 浙 江 '] 

[山西 '，' 湖 南 '，' 湖 北 "] 

避 江 苏 ,， "安徽 ,， ,浙江 ,， "上 海 ,， "山东 "， "山西 ,， " 淹 南 "， ,湖北 
[江苏 '， 浙江,， "山东 ,， "湖南 '] 


如 上 结果 显示 ， 如 果 需 要 从 头 开始 返回 元 素 ， 可 以 将 切片 中 的 start 设置 为 冒号 〈:) ; 如 果 需 
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要 返回 至 结尾 的 元 素 ， 可 以 将 切片 中 的 end 设置 为 冒号 ; 当然 ，start 和 end 都 设置 为 冒号 的 话 ， 返 





回 的 是 整个 列表 元 素 (等同 于 复制 的 功效 ) ， 再 通过 step 控制 步 长 ， 实 现 有 规律 地 跳 格 取 数 。 


“列表 是 可 变 类 型 的 数据 结构 ” 指 的 是 可 以 通过 列表 特有 的 “方法 ”， 实 现 列表 元 素 的 增加 、 


删除 和 修改 ， 一 旦 通过 这 些 方法 完成 列表 的 改 操作 ， 列 表 本 身 就 发 生变 化 了 。 注意 ， 这 里 说 的 是 特 


有 


的 “方法 ”， 而 不 是 函数 ， 对 于 初学 者 来 说 ， 不 易 分 清 Python 中 的 “方法 ”和 函数 。 
为 了 让 读者 容易 理解 两 者 的 区 别 ， 这 里 举 个 形象 的 例子 加 以 说 明 。“ 方 法 ”可 以 理解 为 “ 婴 


幼儿 专用 商品 ”， 写 成 Python 的 语法 就 是 object.method， 这 里 的 object 就 是 婴 幼 儿 ，method 就 是 
专用 商品 ,例如 儿童 玩具 、 奶 嘴 、 尿 不 湿 等 商品 就 是 给 婴 幼 儿 使 用 的 ， 这 些 商 品 是 限定 用 户 的 ， 就 


像 


方法 "是 限定 特有 对 象 一 样 ; 函数 可 以 理解 为 普通 商品 , 写成 Python 的 语法 就 是 function(object)， 





这 里 的 object 就 是 普通 大 众 ，function 就 是 大 众 商 品 ， 例 如 雨 企 、 自 行车 、 米 饭 等 商品 是 不 限定 任 
何人 群 的 ， 就 像 函 数 可 以 接受 任何 一 类 参数 对 象 一 样 (如 所 有 可 和 迭代 对 象 ) 。 上 面 是 从 狭义 的 角度 
简单 理解 两 者 的 区 别 ， 如 果 从 广义 的 角度 来 看 “方法 ”和 函数 ， 它 们 都 属于 对 象 的 处 理 函数 。 





5. 列表 元 素 的 增加 
如 果 需 要 往 列表 中 增加 元 素 ， 可 使 用 Python 提供 的 三 种 方法 ， 即 append、extend 和 insert。 下 


面 通过 例子 来 解释 三 者 的 区 别 : 


list3 = [1,10,100,1000,10000] 
# 在 列表 末尾 添加 数字 2 
list3.append(2) 

print (list3) 


out: 
[1, 10, 100, 1000, 10000, 2] 


append 是 列表 所 特有 的 方法 ， 其 他 常见 对 象 是 没有 这 个 方法 的 ， 该 方法 是 往 列表 的 尾部 增加 


元 素 ， 而 且 每 次 只 能 增加 一 个 元 素 。 如 果 需 要 一 次 增加 多 个 元 素 ， 该 方法 无 法 实现 ， 只 能 使 用 列表 
的 extend 方法 。 


# 在 列表 末尾 添加 20, 200,2000,20000 四 个 值 
list3.extend([20,200,2000,20000]) 
print (list3) 


out: 
[1, 10, 100, 1000, 10000, 2, 20, 200, 2000, 20000] 


使 用 extend 方法 往 列 表 尾部 增加 多 个 元 素 时 ， 一 定 要 将 多 个 元 素 捆绑 为 列表 传递 给 该 方法 ， 


即使 只 有 一 个 元 素 ， 也 需要 以 列表 的 形式 传递 。 


# 在 数字 10 后 面 增加 11 这 个 数字 
list3.insert (2,11) 

Print (list3) 

# 在 10000 后 面 插入 ['a','b','c'] 
list3.insert(6,['a','b','c']) 
print (List3) 


out: 
[1, 10, 11, 100, 1000, 10000, 2, 20, 200, 2000, 20000] 
[1, 10, 11, 100, 1000, 10000, ['a', 'b', 'c'], 2, 20, 200, 2000, 20000] 
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insert 方法 可 以 在 列表 的 指定 位 置 插入 新 值 , 该 方法 需要 传递 两 个 参数 : 一 个 是 索引 (或 下 标 ) 
参数 ， 如 上 面 的 2， 是 指 在 列表 元 素 的 第 三 个 位 置 插入 ; 另 一 个 参数 是 具体 插入 的 值 ， 既 可 以 是 一 
个 常量 ， 也 可 以 是 一 个 列表 ， 如 果 是 列表 ， 就 是 以 嵌 套 列表 的 形式 插入 。 

6. 列表 元 素 的 删除 

能 往 列表 中 增加 元 素 , 就 能 从 列表 中 删除 元 素 。 关 于 列表 元 素 的 删除 有 三 种 方法 , 分 别 是 pop、 
remove 和 clear， 下 面 举例 说 明 : 


# 删除 1ist3 中 20000 这 个 元 素 

list3.pop() 

print (list3) 

# 删除 1ist3 中 11 这 个 元 素 

list3.pop(2) 

Print (list3) 

out: 

[1, 10, 11, 100, 1000, 10000, ['a', 'b', 'c'], 2, 20, 200, 2000] 
[1, 10, 100, 1000, 10000, ['a', 'b', 'c'], 2, 20, 200, 2000] 


如 上 结果 所 示 ， 通 过 pop 方法 ， 可 以 完成 列表 元 素 两 种 风格 的 删除 ， 一 种 是 默认 删除 列表 的 
末尾 元 素 ， 另 一 种 是 删除 指定 位 置 的 列表 元 素 ， 而 且 都 只 能 删除 一 个 元 素 。 

# 删除 1ist3 中 的 ['a'，'b'，'c'] 

list3.remove(['a', 'b', 'c']) 

print (list3) 


out: 
[1, 10, 100, 1000, 10000, 2, 20, 200, 2000] 


remove 方法 提供 了 删除 指定 值 的 功能 ， 该 功能 非常 棒 ， 但 是 它 只 能 删除 首次 出 现 的 指定 值 。 
如 果 你 的 列表 元 素 特别 多 , 通过 pop 方法 删除 指定 位 置 的 元 素 就 显得 非常 笨拙 ,因为 你 需要 数 出 删 
除 值 的 具体 位 置 ， 而 使 用 remove 方法 就 很 方便 。 


# 删除 1ist3 中 所 有 元 素 
list3.clear() 
print (list3) 


out: 

[] 

clear 从 字面 理解 就 是 清空 的 意思 ， 确 实 ， 该 方法 就 是 将 列表 中 的 所 有 元 素 全 部 删除 。 如 上 结 
果 所 示 ， 通 过 clear 方法 返回 的 是 一 个 空 列表 。 

7. 列表 元 素 的 修改 

如 果 列 表 元 素 值 存在 错误 该 如 何 修改 呢 ? 不 幸 的 是 对 于 列表 来 说 ， 没 有 具体 的 方法 可 言 ， 但 
可 以 使 用 “ 取 而 改 之 ”的 思想 实现 元 素 的 修改 。 下 面 通过 具体 的 例子 来 加 以 说 明 : 

list4 = [' 洗 衣 机 ',' 冰 响 ',' 电 视 机 ',' 电 脑 ', ' 空调 '] 

# 将 “ 冰 响 ”修改 为 “冰箱 ” 

print (list4[1]) 


list4[1] =' 冰 箱 ' 
print (list4) 


out: 
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可 。 


序 、 


冰 响 
[' 洗 衣 机 ' ，' 冰箱 ' ，' 电视 机 ' ，' 电脑 '"，' 空 调 ' ] 


“ 取 而 改 之 ”是 指 先 通过 错误 元 素 的 获取 (通过 索引 的 方法 ) ， 再 使 用 正确 的 值 重新 替换 即 
正如 上 面 的 结果 所 示 ， 就 是 用 新 值 蔡 换 旧 值 ， 完 成 列表 元 素 的 修改 。 

当然 ， 除 了 上 面 介绍 的 列表 元 素 增加 和 删除 所 涉及 的 “方法 ”外 ， 还 有 其 他 “方法 ”， 如 排 
计数 、 查 询 位 置 、 逆 转 ， 接 下 来 仍然 通过 具体 的 例子 来 说 明 它们 的 用 法 : 


list5 = [7,3,9,11,4,6,10,3,7,4,4,3,6,3] 
# 计算 列表 中 元 素 3 的 个 数 
print (list5.count (3)) 

# 找 出 元 素 6 所 在 的 位 置 
print (list5.index(6)) 

# 列表 元 素 的 颠倒 
list5.reverse() 

print (list5) 

# 列表 元 素 的 降序 
list5.sort (reverse=True) 
print (list5) 





out: 

4 

5 
9 
生生 .ey tr PE I. .| 


count 方 法 是 用 来 对 列表 中 的 某 个 元 素 进行 计数 ， 每 次 只 能 往 count 方法 中 传递 一 个 值 ，index 


方法 则 返回 指定 值 在 列表 中 的 位 置 ， 遗 憾 的 是 只 返回 首次 出 现 该 值 的 位 置 ，reverse 方法 是 将 列表 
元 素 全 部 翻转 ， 最 后 一 个 元 素 重新 排 到 第 一 个 位 置 ， 倒 数 第 二 个 元 素 排 到 第 二 个 位 置 ， 以 此 类 推 ; 
sort 方法 可 以 实现 列表 元 素 的 排序 ， 默 认 是 升序 ， 可 以 将 reverse 参数 设置 为 True， 进 而 调整 为 降 


序 。 


需要 注意 的 是 ，sort 方法 只 能 对 同 质数 据 进行 排序 ， 即 列表 元 素 统一 都 是 数值 型 或 字符 型 ， 不 


可 以 混合 多 种 数据 类 型 或 数据 结构 。 


3.1.2 元 组 


元 组 与 列表 类 似 ， 关 于 元 组 同样 需要 做 如 下 三 点 说 明 : 

@ ”元 组 通过 英文 状态 下 的 圆 括 号 构成 ， 即 ()。 其 存放 的 元 素 与 列表 一 样 ， 可 以 是 不 同 的 数值 类 
型 ， 也 可 以 是 不 同 的 数据 结构 。 
元 组 仍然 是 一 种 序列 ， 所 以 几 种 获取 列表 元 素 的 索引 方法 同样 可 以 使 用 到 元 组 对 象 中 。 
与 列表 最 大 的 区 别 是 ， 元 组 不 再 是 一 种 可 变 类 型 的 数据 结构 。 


由 于 元 组 只 是 存储 数据 的 不 可 变 容器 , 因此 其 只 有 两 种 可 用 的 “方法 ”分 别 是 count 和 index。 





它们 的 功能 与 列表 中 的 count 和 index 方法 完全 一 样 ， 这 里 就 简单 举例 ， 不 再 详细 歼 述 : 


WM ds bs rd Ua: Hh | 
# 计数 
print (t.count ('a')) 


# 元 素 位 置 
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print (t.index('c')) 


out: 
se] 
3.1.3 ”字典 


字典 是 非常 常用 的 一 种 数据 结构 ， 它 与 json 格式 的 数据 非常 相似 ， 核 心 就 是 以 键 值 对 的 形式 
存储 数据 ， 关 于 Python 中 的 字典 做 如 下 四 点 说 明 : 


日 ”构造 字典 对 象 需要 使 用 大 括号 表示 ， 即 分 ， 每 一 个 字典 元 素 都 是 以 键 值 对 的 形式 存在 ， 并 且 
键 值 对 之 间 用 英文 状态 下 的 冒号 隔 开 ， 即 key:value。 

®。 键 在 字典 中 是 唯一 的 ， 不 能 有 重复 ， 对 于 字符 型 的 键 需要 用 引号 引起 来 。 值 可 以 是 单个 值 ， 
也 可 以 是 多 个 值 构 成 的 列表 、 元 组 或 字典 。 

@ “字典 不 再 是 序列 ， 无 法 通过 位 置 索引 完成 元 素 值 的 获取 ， 只 能 通过 键 索引 实现 。 

日 字典 与 列表 一 样 ， 都 是 可 变 类 型 的 数据 结构 。 


首先 介绍 字典 的 键 索引 如 何 实现 元 素 值 的 获取 ， 举 例如 下 : 

datect1 = {1' 姓 名 "':' 张 三 ',' 年 龄 ' :33, "性别 ":' 男 '， "子女 "3 1 儿子 "7 张 四 " ' 女 儿 ':" 张 美 ' }， 
"兴趣 ' : [' 踢 球 ', ' 游 泳 ',' 唱 歌 '] } 

# 打印 字典 

print (dict1) 

# 取出 年 龄 

print (dict1[' 年 龄 ']) 

# 取出 子女 中 的 儿子 姓名 

print (dict1[' 子 女 '] [' 儿 子 ']) 

# 取出 兴趣 中 的 游泳 

print (dict1[' 兴 趣 '] [1]) 


Out: 


{' 姓 名 ': ' 张 三 '，' 子 女 ' : { "女儿 ' : ' 张 美 '，' 儿 子 ' : ' 张 四 ' }，' 兴 趣 ' : [" 唱 球 '， "游泳 '，' 唱 歌 ']， 
"年 龄 ' : 33，“" 性 别 " : ' 男 '} 


对 于 字典 来 说 ， 它 不 再 是 序列 ， 通 过 第 一 条 输出 结果 可 知 ， 构 造 时 的 字典 元 素 与 输出 时 的 字 
典 元 素 顺 序 已 经 发 生 了 变化 ， 要 想 获取 元 素 值 ， 只 能 在 索引 里 面 写 入 具体 的 键 ， 在 字典 dictl 中 ， 
键 “ 子 女 ” 对 应 的 值 是 另 一 个 字典 ， 属 于 dictl 的 嵌 套 字典 ， 所 以 需要 通过 双 层 键 索引 获取 张 三 儿 
子 的 姓名 ; 键 “兴趣 ”对 应 的 值 是 列表 ， 所 以 “游泳 ”这 个 值 只 能 通过 先 锁定 字典 的 键 再 锁定 列表 
元 素 的 位 置 才能 获得 。 

接 下 来 介绍 字典 的 可 变性 。 关 于 可 变性 ， 仍 然 是 对 字典 元 素 进 行 增加 、 删 除 和 修改 的 操作 ， 
这 些 操作 都 可 以 通过 字典 的 “方法 ”实现 ， 下 面 将 依次 介绍 字典 的 各 个 操作 。 
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1. 字典 元 素 的 增加 


针对 字典 元 素 的 增加 ， 可 以 使 用 如 下 三 种 方式 实现 ， 分 别 是 setdefault 方法 、update 方法 和 键 
索引 方法 : 


# 往 字典 dict1 中 增加 户籍 信息 
dict1.setdefault (' 户 籍 ', ' 合 肥 ') 
print (dict1) 

# 增加 学 历 信息 
dict1.update({' 学 历 ' :' 硕 十 '}) 
print (dict1) 

# 增加 身高 信息 

dict1[' 身 高 '] = 178 

Print (dict1) 


out: 

{' 姓 名 ' : ' 张 三 ' ，' 兴趣 ' : [' 踢 球 '，' 游 泳 '，' 唱歌 '] ，' 户 籍 ': ' 合 肥 ' ，' 年 龄 ' : 33， 
学 安 呈 让 几 电 卫生" 儿 于 0 张罗" "性 出 " 筋 吨 

{' 姓 名 ' : ' 张 三 ' ，' 兴趣 ' : [' 踢 球 '，' 游 泳 '，' 唱 歌 '] ，' 户籍 ': ' 合 肥 ' ，' 年龄 ' : 33，, 
"子女 !: {1' 女 儿 ' : ' 张 美 '，' 儿 子 ' : ' 张 四 '}，' 学 历 ': ' 磊 士 '，' 性 别 ' : ' 男 '} 

{' 姓 名 ' : ' 张 三 ' ，' 兴趣 ' : [' 跑 球 '，' 游 泳 '，' 唱 歌 '] ，' 户 籍 ': ' 合 肥 ' ，' 年龄 ' : 33， 

' 身 高 ': 178，' 子 女 ': 人 "女儿 ': ! 张 美 '"，' 儿 子 ': ' 张 四 '}，' 学 历 ':' 磊 士 '，' 性 别 ': ' 男 '} 


如 上 结果 所 示 ，setdefault 方法 接受 两 个 参数 ， 第 一 个 参数 为 字典 的 键 ， 第 二 个 参数 是 键 对 应 
的 值 ，update 从 字面 理解 是 对 字典 的 更 新 ， 关 于 update 方法 完成 字典 元 素 的 修改 可 参见 后 面 的 内 
容 ， 除 此 ， 它 还 可 以 增加 元 素 ， 与 setdefault 不 同 的 是 该 方法 接受 的 是 一 个 字典 对 象 ， 第 三 种 方法 
是 通过 键 索引 实现 的 ， 如 果 原 字典 中 没有 指定 的 键 ， 就 往 字 典 中 增加 元 素 ， 否 则 ， 起 到 修改 字典 元 
素 的 功能 。 


2. 字典 元 素 的 删除 
关于 字典 元 素 的 删除 可 以 使 用 pop、popitem 和 clear 三 种 “方法 ”实现 ， 具 体操 作 如 下 : 


# 删除 字典 中 的 户籍 信息 
dict1.pop(' 户 籍 ') 

print (dict1) 

# 删除 字典 中 女儿 的 姓名 
dict1[' 子 女 '] .pop(' 女 儿 ') 
print (dict1) 

# 删除 字典 中 的 任意 一 个 元 素 
dict1.popitem() 

print (dict1) 

# 清空 字典 元 素 
dictl.clear() 

print (dict1) 








out: 

{' 姓 名 ' : ' 张 三 ' ，' 兴 趣 ' : [" 踢 球 '， "游泳 '， "唱歌 '] ，' 年 龄 ': 33，' 身 高 ': 178， 

由 六 :流量 

{' 姓 名 ': ' 张 三 '，' 兴 趣 ' : [' 吕 球 '，' 游 泳 '，' 唱 歌 '] ，' 年龄 ' : 33，' 身 高 ': 178， 
3 

{' 兴 趣 ': [' 踢 球 '，' 游 泳 '，' 唱 歌 '] ，' 年 龄 ': 33，' 身 高 ': 178，' 子 女 ': {' 儿 子 ': ' 张 四 '}， 
"学 历 ' : ' 硕 士 ' ，' 性 别 ': ' 男 '} 

{} 
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如 上 结果 显示 ，pop 方法 在 列表 中 同样 起 到 删除 元 素 的 作用 ， 如 果 不 传递 任何 值 给 pop 方法 ， 
则 表示 删除 列表 末尾 的 一 个 元 素 , 否则 就 是 删除 指定 下 标的 一 个 元 素 , 但 是 在 字典 中 pop 方法 必须 
指定 需要 删除 的 键 , 否则 就 会 引起 语法 错误 ; 如 果 需 要 删除 嵌 套 字典 中 的 某 个 键 ， 就 必须 先 通过 键 
索引 取出 对 应 的 字典 ， 然 后 使 用 pop 方法 完成 嵌 套 字典 元 素 的 删除 ， popitem 方法 不 需要 传递 任何 值 ， 
它 的 功能 就 是 任意 删除 字典 中 的 某 个 元 素 ，clear 方法 则 可 以 干净 利落 地 清空 字典 中 的 所 有 元 素 。 


3. 字典 元 素 的 修改 


最 后 来 看 一 下 字典 元 素 的 修改 ， 关 于 修改 部 分 ， 可 以 使 用 如 下 两 种 方法 : 


# 将 学 历 改 为 本 科 
dict1.update({' 学 历 ':' 本 科 '}) 
print (dict1) 

# 将 年 龄 改 为 35 

dict1[' 年 龄 '] = 35 

print (dict1) 

# 将 兴趣 中 的 唱歌 改 为 跳舞 
qdict1[' 兴 趣 '] [2] = ' 跳 舞 ' 





print (dict1) 

out: 

{' 兴 趣 ': [' 跑 球 '，' 游 泳 '，' 跳 舞 '] ，' 年 龄 ' : 
' 学 历 ': ,本 科 '， ' 性 别 ': ' 男 '} 

{' 兴 趣 ': [' 踢 球 '，' 游 泳 '，' 跳 舞 '] ，' 年 龄 ' : 
' 学 历 '; ! 本 科 !，' 性 别 ': ' 男 '} 

{' 兴 趣 ' : [' 跑 球 '，' 游 泳 '，' 跳 舞 '] ，' 年 龄 ' : 
' 学 历 ': ' 本 科 '，' 人 性 别 ': ' 男 '} 


3 


35, 


35, 


二 商 避 078 AAA 张 四 光 0 
"身高 ": 178，' 了 女 ": 1 册子 "5 张罗 中/ 
"身高 ': 178，' 子 女 ': {' 儿 子 ': " 张 四 ']， 


正如 “字典 元 素 的 增加 ”部 分 所 提 到 的 ， 也 可 以 使 用 update 方法 和 键 索引 方法 完成 字典 元 素 


的 修改 ， 具 体 如 上 面 的 例子 所 示 。 需 要 注意 的 是 ， 


如 果 字 典 中 的 值 是 另 一 个 字典 或 列表 ， 需 要 先 通 


过 键 索引 实现 字典 元 素 的 查询 ， 然 后 在 查询 的 基础 上 应 用 对 应 的 修改 方法 即 可 〈 如 update 方法 或 


“ 取 而 改 之 ”的 方法 ) 。 
列表 还 有 一 些 其 他 “方法 ”， 


这 里 列 出 几 个 比较 重要 的 方法 并 通过 例子 来 解释 : 


dict2 = { "电影 ': [ "三 傻 大 闹 宝 莱 坞 '，' 大 话 西游 之 大 圣 娶 亲 '，' 疯狂 动物 城 '] , 
"导演 ' : [' 拉 吉 库 马尔 。 希 拉 尼 ', ' 刘 镇 伟 ',' 拜 伦 * 霍华德 '] ，' 评 分 ': [9.1, 9.2,9.2]} 


# 取出 键 ' 评 分 "所 对 应 的 值 
print (dict2.get(' 评 分 ')) 
# 取出 字典 中 的 所 有 键 
print (dict2.keys () ) 

# 取出 字典 中 的 所 有 值 

print (dict2.values ()) 

# 取出 字典 中 的 所 有 键 值 对 
print (dict2.items() ) 


out: 
Ds 92 
dict_keys([' 导 演 '， 


' 评 分 '，' 电 影 ']) 


dict_values([[' 拉 吉 库 马尔 。 希 拉 尼 ' ，' 刘 镇 伟 '，' 拜 伦 * 霍华德 ']，[9.1,9.2, 9.2],， 


[ "三 傻 大 闹 宝 莱 坞 ' ，' 大 话 西游 之 大 圣 娶 亲 '， 


"疯狂 动物 城 '] ] ) 


dict_items ([('" 导 演 '，[ '" 拉 吉 库 马尔 。 希 拉 尼 '， "' 刘 镇 伟 "， " 拜 伦 。 霍华德 '] ) ，( "评分 "'，[9.1，9.2，9.2])， 


("电影 '， 


[' 三 傻 大 六 宝 莱 坞 ' ，“' 大 话 西游 之 大 圣 了 要 亲 ' ，' 疯狂 动物 城 ']) ] ) 
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get 方法 的 功能 与 键 索引 已 知 ， 可 以 从 字典 中 取出 键 对 应 的 值 。 所 不 同 的 是 ， 如 果 某 个 键 在 字 
典 中 不 存在 ， 应 用 键 索引 的 方法 会 产生 “ 键 错误 ”的 信息 ;而 get 方法 则 不 会 报错 ， 也 就 不 会 影响 
其 他 脚本 的 正常 执行 。keys、values 和 items 方法 分 别 取出 字典 中 的 所 有 键 、 值 和 键 值 对 。 








3.2 控制 流 


Python 中 的 控制 流 语句 和 其 他 编程 软件 控制 流 相似 , 主要 包含 认 分 支 、 for 循环 和 while 循环 ， 
而 且 控 制 流 的 使 用 非常 频繁 。 例 如 ， 分 不 同情 况 执行 不 同 的 内 容 就 可 以 使 用 if 分 支 完成 对 每 一 
个 对 象 进行 相同 的 操作 可 以 使 用 for 循环 实现 ; 当 无 法 确定 循环 的 对 象 是 什么 时 , 还 可 以 使 用 while 
循环 完成 重复 性 的 操作 。 下 面 就 详细 介绍 让 分 支 、for 循环 和 while 循环 的 具体 使 用 说 明 。 


321 下 分 这 


让 分 支 是 用 来 判别 某 个 条 件 是 否 满足 时 所 对 应 的 执行 内 容 , 常见 的 分 支 类 型 有 二 分 支 类 型 和 多 
分 支 类 型 。 二 分 支 是 指 条 件 只 有 两 种 情况 , 例如 年 龄 是 否 大 于 18 周岁 , 收入 是 否 超过 15000 元 等 。 
多 分 支 是 指 条 件 个 数 超过 两 种 ,例如 将 考试 成 绩 分 成 合格 、 良 好 和 优秀 三 种 等 级 ,将 年 龄 分 为 少年 、 
青年 、 中 年 和 老年 4 个 段 。 可 以 将 if 分 支 形象 地 表示 成 图 3-1 。 


图 3-1 让 分 支流 程 图 


如 图 3-1 所 示 ， 尧 形 代表 条 件 ， 和 托 形 代表 不 同 条 件 下 执行 的 语句 块 。 左 图 展示 的 就 是 二 分 支 的 
情况 ， 右 图 为 三 分 支 的 判断 风格 。 在 Python 中 二 分 支 和 三 分 支 的 语法 可 以 写成 表 3-1 的 形式 。 
表 3-1 半分 支 的 二 分 支 和 三 分 支 的 语法 
二 分 支 语 法 三 分 支 语法 


if conditionl: 





if conditionl: expression1 


expression1 elif condition2: 
else: expression2 


expression2 else: 





expression3 
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关于 上 面 的 语法 ， 有 如 下 4 点 需要 注意 : 
@ ”对 于 多 分 支 的 情况 ，else if 在 Python 缩写 为 elif。 
不 论 是 关键 词 f、el 放 还 是 else， 其 所 在 的 行 末尾 都 必须 加 上 英文 状态 的 冒号 。 
”在 条 件 之 后 的 执行 语句 (expression 部 分 ) 都 需要 缩 进 ,而 且 在 整个 语句 块 中 ,保持 缩 进 风格 





一 致 


@ else 关键 词 后 面 千 万 不 要 再 加 上 具体 的 条 件 。 


针对 上 面 的 语法 ， 通 过 简单 的 例子 〈 见 表 3-2) 来 加 以 说 明 ， 希 望 读者 能 够 比较 好 地 理解 让 





分 支 的 语法 和 注意 事项 。 
表 3-2 if 语 旬 二 分 支 和 多 分 支 的 例子 
二 分 支 : 返回 一 个 数 的 绝对 值 多 分 支 : 返回 成 绩 对 应 的 等 级 
X=-3 score=68 
ifx>=0: if score < 60: 
Print(x) print( 不 及 格 ') 

else: elif score < 70: 
Print(-1*x) Print( 合 格 ') 

elif score < 80: 
out: print( 良 好 ') 
3 else: 

print( 优秀 ) 

out: 

合格 











3.2.2 for 循环 


循环 的 目的 一 般 都 是 为 了 解决 重复 性 的 工作 ， 如 果 你 需要 对 数据 集中 的 每 一 行 做 相同 的 处 理 ， 
但 不 使 用 循环 的 话 ， 就 会 导致 代码 量 剧 增 ， 而 且 都 是 无 意义 的 重复 代码 。 如 果 使 用 循环 的 语法 解决 
类 似 上 面 的 问题 ， 也 许 只 要 10 行 左右 的 代码 即 可 ， 既 保证 代码 的 简洁 性 ， 又 保证 问题 得 到 解决 。 
为 了 使 读者 形象 地 理解 for 循环 的 操作 流程 ， 可 将 其 表示 为 如 图 3-2 所 示 的 效果 。 





3-2 for 循环 的 操作 流程 
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如 图 3-2 所 示 ， 对 于 for 循环 来 说 ， 就 是 把 可 和 欠 代 对 象 中 的 元 素 〈 如 列表 中 的 每 一 个 元 素 ) 通 
过 漏斗 的 小 口 依次 倒 入 之 后 的 执行 语句 中 。 在 图 3-2 中 ,漏斗 代表 可 选 代 对 象 ， 小 球 代 表 可 先 代 对 
象 中 的 元 素 , 黑 框 是 对 每 一 个 元 素 的 具体 计算 过 程 , 菱形 是 需要 对 每 一 个 元 素 做 条 件 判 断 ， 圆柱 体 
则 存放 了 计算 后 的 结果 。 

对 于 左 图 来 说 ， 直 接 将 漏斗 中 的 每 一 个 元 素 进行 某 种 计算 ， 最 终 把 计算 结果 存储 起 来 ; 右 图 
相对 复杂 一 些 ， 多 了 一 步 计算 前 的 判断 ， 这 个 就 需要 让 分 支 和 for 循环 搭配 完成 ， 然 后 将 各 分 支 的 
结果 进行 存储 。 接 下 来 ， 分 别 对 如 上 两 种 for 循环 用 法 加 以 案例 说 明 。 

# 将 列表 中 的 每 个 元 素 做 平方 加 1 处 理 

list6 = [1,5,2,8,10,13,17,4,6] 

result = [] 

for i in list6: 

由 
result.append (y) 
print (result) 











out: 
EG 9 GH ON LTO 2900 TT Sm 


如 上 展示 的 就 是 对 列表 list6 中 每 个 元 素 做 平方 加 1 的 结果 ， 在 for 循环 之 前 先 构造 了 空 列表 
result， 用 于 最 终 计算 结果 的 存储 ;Python 中 的 指数 运算 可 以 使 用 两 个 星 号 表示 ， 如 3 的 5 次 方 可 
以 写成 3**5; 最 后 通过 列表 的 append 方法 将 每 个 元 素 的 计算 结果 依次 存 入 result 变量 中 。 下 面 再 
看 一 个 有 判断 条 件 的 for 循环 用 法 。 

# 计算 1 到 100 之 间 的 偶数 和 

sl 100=0 

for i in range(1,101): 

if i%2==0; 

sl 100 = sl 100 +1i 
else: 


pass 
print ('1 到 100 之 间 的 偶数 和 为 8d'%s1_100) 


out: 

1 到 100 之 问 的 偶数 和 为 2550 

如 上 结果 所 示 ， 通 过 for 循环 可 以 非常 方便 地 计算 出 所 有 1 到 100 之 间 的 偶数 和 。 对 于 上 面 

Python 语句 有 如 下 5 点 说 明 : 

在 进入 循环 之 前 必须 定义 一 个 变量 ， 并 将 0 赋 给 它 ， 目 的 是 用 于 和 的 累加 。 
虽然 可 以 通过 方 括号 [] 实 现 列表 的 构建 ， 但 是 手工 写 入 1 至 100 的 数字 很 麻烦 ， 如 果 使 用 
Python 提供 的 range 函数 就 可 以 非常 方便 地 生成 有 规律 的 可 选 代 对 象 ， 但 是 该 函数 取 不 到 上 
限 ， 所 以 range 函数 的 第 二 个 参数 写 入 的 是 101。 

@ ”判断 一 个 数值 是 否 为 偶数 ， 就 将 该 数值 与 2 相 除 求 其 余数 ， 如 果 余 数 等 于 0 则 为 偶数 ， 否 则 
为 奇数 ， 所 以 用 % 表 示 计算 两 个 数 商 的 余数 ， 判 断 余 数 是 否 等 于 0， 用 双 等 号 “一 ”表示 。 

@ ”由 于 计算 的 是 偶数 和 ， 所 以 证 分 支 属于 二 分 支 类 型 ， 这 里 只 关心 偶数 的 和 ， 对 于 else 部 分 就 
直接 使 用 关键 词 pass 表示 和 忽略， 当然 读者 也 可 以 省 略 掉 else: 和 pass 两 行 。 

e@ 最 后 的 print 输出 部 分 使 用 了 格式 化 的 输出 方法 ， 如 代码 中 的 %d 代表 一 个 整数 型 的 
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坑 ，%s1_100 就 是 往 坑 中 填 入 的 值 ， 如 果 有 多 个 待 填 入 坑 ， 就 得 指定 多 个 填 入 的 值 ， 这 样 的 
格式 化 输出 可 以 写成 % ( 值 1, 值 2 值 3) 除了 有 整数 型 的 坑 ， 还 有 %s、%f 和 .2f% 等 ， 分 别 
代表 字符 型 的 坊 、 浮 点 型 (小数 型 ) 的 坑 和 保留 两 位 小 数 点 的 浮 点 型 坑 等 。 


如 果 是 对 可 连 代 对 和 象 中 的 每 一 个 元 素 做 相同 处 理 的 话 ， 正 如 上 面 的 例子 中 对 列表 list6 的 每 个 
元 素 做 平方 加 1 的 计算 ， 不仅 可 以 使 用 for 循环 ， 还 可 以 通过 更 简单 的 列表 表达 式 完 成 。 对 于 列表 
表达 式 ， 可 以 写成 如 下 语法 : 


[expression for i in iterable if condition] 


在 上 面 的 列表 表达 式 中 ，expression 就 是 对 每 一 个 元 素 的 具体 操作 表达 式 ; iterable 是 某 个 可 从 
代 对 象 ， 如 列表 、 元 组 或 字符 串 等 ，if condition 是 对 每 一 个 元 素 做 分 支 判 断 ， 如 果 条 件 符合 ， 则 
expression 操作 对 应 的 元 素 。 为 了 更 好 地 说 明 列 表 表 达 式 ， 下 面 举 一 个 示例 : 

对 列表 中 的 个 数 人 三 次 方 沽 10 的 处 到 

list7 = [3,1,18,13,22,17,23,14,19,28,16] 


result = [i ** 3 - 10 for i in list7 if i % 2 == 0] 
print (result) 


out: 
[5822, 10638, 2734, 21942, 4086] 


如 上 结果 所 示 ， 在原 列表 list7 中 通过 余数 判断 获得 5 个 偶数 ， 分别 是 18、22、14、28 和 16， 
再 对 这 些 数 做 三 次 方 减 10 的 操作 就 得 到 了 最 终 的 输出 结果 ， 而 且 结 果 还 是 列表 型 的 数据 结构 。 
Python 中 除了 有 列表 表达 式 ， 还 有 元 组 表达 式 和 字典 表达 式 ， 它 们 的 语法 跟 列 表 表达 式 类 似 ， 由 
于 它们 在 实际 工作 中 的 使 用 并 不 是 很 频繁 ， 所 以 就 不 对 它们 做 详细 说 明了 。 

如 果 读 者 在 学 习 或 工作 中 需要 解决 的 问题 既 可 以 用 for 循环 实现 也 可 以 通过 列表 表达 式 完 成 ， 
建议 优先 选择 列表 表达 式 的 方法 ， 因 为 其 语法 简洁 ， 而 且 在 计算 的 效率 上 也 比 多 行 的 for 循环 高 得 
多 。 关 于 for 循环 的 内 容 就 讲解 这 么 多 ， 最 后 介绍 控制 流 中 的 while 循环 。 





3.2.3 while 循环 


while 循环 与 for 循环 有 一 些 相似 之 处 ,有 时 for 循 环 的 操作 和 while 循环 的 操作 是 可 以 互 换 的 ， 
但 while 循环 更 适合 无 具体 迭代 对 象 的 重复 性 操作 。 这 人 句 话 理解 起 来 可 能 比较 吃力 ， 下 面 通过 一 个 
比较 形象 的 例子 来 说 明 两 者 的 差异 。 

当 你 登录 某 手 机 银行 APP 账号 时 , 一 旦 输入 错误 , 就 会 告知 用 户 还 剩 几 次 输入 机 会 , 很 明显 ， 
其 背后 的 循环 就 是 限定 用 户 只 能 在 N 次 范围 内 完成 正确 的 输入 ， 和 否则 当天 就 无 法 再 进行 用 户 名 和 
密码 的 输入 , 对 于 for 循环 来 说 , 就 有 了 具体 的 迭代 对 象 , 如 从 1 到 N; 当 你 在 登录 某 邮箱 账号 时 ， 
输入 错误 的 用 户 名 或 密码 ， 只 会 告知 “您 的 用 户 名 或 密码 错误 ”， 并 不 会 限定 还 有 几 次 剩余 的 输入 
机 会 ， 所 以 对 于 这 种 重复 性 的 输入 操作 ， 对 方 服务 器 不 确定 用 户 将 会 输入 多 少 次 才 会 正确 ， 对 于 
while 循环 来 说 ， 就 相当 于 一 个 无 限 次 的 循环 ， 除 非 用 户 输入 正确 。 

首先 来 了 解 一 下 while 循环 在 Python 中 的 语法 表达 : 


while condition: 
if conditionl: 
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expressionl 
elif condition2: 

expression2 
else: 

expression3 


当 while 关键 词 后 面 的 条 件 满足 时 ， 将 会 重复 执行 第 二 行 开始 的 所 有 语句 块 。 一 般 情况 下 ， 
while 循环 都 会 与 让 分 支 搭配 使 用 ， 就 像 for 循环 与 让 分 支 拱 配 一 样 ， 如 上 面 的 while 循环 语法 中 
就 内 嵌 了 三 分 支 的 if 判断 ， 读 者 可 以 根据 具体 的 情况 调整 分 支 的 个 数 。 针 对 上 文 提 到 的 两 种 账号 
登录 模式 ， 进 一 步 通过 实例 〈 见 表 3-3) 代码 来 比较 for 循环 和 while 循环 的 操作 差异 。 

表 3-3 for 循环 和 while 的 例子 

















for 循 环 while 循环 
# 使 用 for 循环 登录 某 手机 银行 APP # 使 用 while 循环 登录 某 邮箱 账号 
foriin range(1,6): while Trmue: 
user = input( 请 输入 用 户 名 : ') user = input(' 请 输入 用 户 名 : ) 
password = int(input(' 请 输入 密码 : )) password = int(input(' 请 输入 密码 : 
if (user =— ‘test) & (password 一 123): if (user — "test') & (password 一 123): 
print(' 登 录 成 功 ! ) Print( 登录 成 功 ! ) 
break break 
else: else: 
让 i<5: print( 您 输入 的 用 户 名 或 密码 错误 ! ) 
print( 错 误 ! 您 今日 还 剩 %d 次 输入 机 会 。'%(5-i)) 
else: out: 
print(' 请 24 小 时 后 再 尝试 登录 ! ) 请 输入 用 户 名 : dag 
请 输入 密码 : 111 
out: 您 输入 的 用 户 名 或 密码 错误 ! 
请 输入 用 户 名 : test 请 输入 用 户 名 : dasg 
请 输入 密码 ;111 请 输入 密码 :111 
错误 ! 您 今日 还 剩 4 次 输入 机 会 。 您 输入 的 用 户 名 或 密码 错误 ! 
请 输入 用 户 名 : test 请 输入 用 户 名 : test 
请 输入 密码 ，123 请 输入 密码 ，123 
登录 成 功 ! 登录 成 功 ! 
对 如 上 呈现 的 代码 做 几 点 解释 : 
input 函数 可 以 实现 人 机 交互 式 的 输入 ， 一 旦 运行 , 用户 填 入 的 任何 内 容 都 会 以 字符 型 的 值 赋 
值 给 user 变量 和 password 变量 ， 由 于 实际 的 密码 为 数字 123， 因 此 必须 将 input 函数 的 结果 


套 在 int 函数 内 ， 将 其 转换 为 整数 型 。 

@ ”如果 有 多 个 条 件 ， 条件 之 间 的 还 辑 关 系 不 管 是 “ 且 ”( 用 及 表示 ) 还 是 “或 ” (用 | 表示 )， 所 有 
的 条 件 都 必须 用 圆 括号 括 起 来 ， 否 则 可 能 会 得 到 诡异 的 结果 。 

@ 在 while 循环 中 ，while 关键 词 后 面 直接 跟 上 True 值 ， 就 表示 循环 将 无 限 次 执行 ， 正 如 用 户 
无 限 次 输入 错误 的 用 户 名 和 密码 一 般 ， 直 到 输入 正确 并 碰见 break 关键 词 时 才 会 退出 循环 。 

® break 关键 字 在 Python 的 循环 过 程 中 会 比较 常见 ， 其 功能 是 退出 离 它 最 近 的 循环 系统 (可 能 
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是 for 循环 或 while 循环 )、 如 代码 所 示 ， 当 正确 填 入 用 户 名 和 密码 时 ， 就 会 执行 break 关键 
字 , 此 时 就 会 退出 整个 循环 系统 .与 break 类 似 的 另 一 个 关键 字 是 continue, 不 同 的 是 , continue 
只 是 结束 循环 系统 中 的 当前 循环 ， 还 得 继续 下 一 轮 的 循环 操作 ， 并 不 会 退出 整个 循环 。 


3.3 ”字符 串 处 理 方 法 


3.3.1 字符 串 的 常用 方法 


在 平时 的 工作 中 ， 也 会 碰见 字符 串 型 数据 的 处 理 ， 例 如 如 何 截取 字符 串 中 的 某 一 段 内 容 、 如 
何 将 字符 串 按照 某 个 指定 的 分 隔 符 将 其 切割 开 、 如 何 对 字符 串 中 的 某 些 值 进行 替换 等 。 本 节 内 容重 
点 讲述 有 关 字 符 串 的 几 种 常见 处 理 “ 方 法 ”， 首 先 介绍 一 下 Python 中 的 字符 串 有 哪些 构造 方法 : 

# 单 引号 构造 字符 串 

stringl = '"commentTime":"2018-01-26 08:59:30", "content":" 包 装 良心 ! 馅 料 新 鲜 ! 还 会 回 购 "， 

# 双 引 号 构造 字符 串 

string2 = "ymd:'2017-01-01',bWendu:'5C'yNendu:'-3C'vtianqi:' 乱 ~- 晴 ' ,fengxiang:' 南 风 
',aqiInfo: ' 严 重 污染 '" 

# 三 引号 构造 字符 串 

string3 = ''''nickName':" 美 美 ", 'content' :" 环 境 不 错 ， 服 务 态度 超 好 ， 就 是 有 点 小 贵 
",'createTimestring':"2017-09-30"'"'" 

string4 = ''" 据 了 解 ， 持 续 降雪 造成 安徽 部 分 地 区 农 房 倒 损 、 种 植 养殖 业 大 棚 损毁 ， 

其 中 合肥 、 马 鞍山 、 铜 陵 3 市 倒塌 农 房 8 间 、 紧 急 转 移 安置 8 人 。' 

构造 字符 串 可 以 使 用 三 种 形式 的 引号 ， 如 果 字 符 串 的 内 容 不 包含 任何 引号 ， 那 么 单 引 号 、 双 
引号 和 三 引号 都 可 以 使 用 ， 如 果 字 符 串 的 内 容 仅 包含 双 引 号 ， 类 似 变量 stringl 的 形式 ， 那 么 只 能 
使 用 单 引号 或 三 引号 构造 字符 串 ， 如 果 字 符 串 的 内 容 仅 包含 单 引号 ， 类 似 变量 string2 的 形式 ， 那 
么 只 能 使 用 双 引 号 或 三 引号 完成 字符 串 的 创建 ， 如 果 字 符 串 的 内 容 既 包含 单 引号 ， 又 包含 双 引 号 ， 
类 似 变 量 string3 所 示 ， 那 只 能 使 用 三 引号 构建 字符 串 。 所 以 ， 三 引号 是 适用 情况 最 多 的 字符 串 构 
造 方法 ， 而 且 三 引号 允许 长 字符 串 的 换行 ， 这 是 其 他 两 种 引号 无 法 实现 的 ， 如 变量 string4 所 示 。 

接 下 来 将 字符 串 的 常用 “方法 ”汇总 到 表 3-4 中 ， 以 便 读者 学 习 和 查阅 。 


表 3-4 字符 串 的 常用 方法 














方法 使 用 说 明 方法 使 用 说 明 
string[start:end:step] 字符 串 的 切片 Stringreplace 字符 串 的 替换 
字符 串 的 分 审 i ete 


string.strip 删除 首尾 空白 string.lstrip 删除 字符 串 左 边 空 白 
string.rstrip 删除 字符 串 右 边 空白 string.count 对 字符 串 的 子 串 计 数 

返回 子 串 首次 出 现 的 位 置 ”| stingfind 生生 国人 和 全 
到 返回 -1) 

string.startswith 字符 串 是 否 以 什么 开头 string.endswith 字符 串 是 否 以 什么 结尾 


为 了 使 读者 很 好 地 理解 表 3-4 中 的 字符 串 “ 方 法 ”， 下 面 通过 一 些小 例子 作为 字符 串 常用 “ 方 








string.index 
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法 ”的 解释 : 


# 获取 身份 证 号 码 中 的 出 生日 期 
Print('123456198901017890'[6:14]) 

# 将 手机 号 中 的 中 间 四 位 替换 为 四 颗 星 

tel = '13612345678" 

Print (tel.replace (tel [3:7],'****"')) 

# 将 邮箱 按 @ 符 分 隔 开 

print ('12345@qq.com' .split('@')) 

# 将 Python 的 每 个 字母 用 减 号 连接 
print('-'.join('Python')) 

# 删除 "” 今天 星期 日 "的 首尾 空白 

print (" 今天 星期 日 ".strip()) 

# 删除 "” 今天 星期 日 "的 左边 空白 

print (" 今天 星期 日 ".lstrip()) 

# 删除 "” 今天 星期 日 "的 右边 空白 

Print (" 今天 星期 日 ".rstrip()) 

# 计算 子 串 “中 国 ” 在 字符 串 中 的 个 数 

string5 = "中 国 方案 引领 世界 前 行 ， 展 现 了 中 国 应 势 而 为 、 勇 于 担当 的 作用 ! ，' 
print (string5 .count (' 中 国 ')) 

# 查询 "Python" 单 词 所 在 的 位 置 

string6 = ' 我 是 一 名 Python 用 户 ，Python 给 我 的 工作 带 来 了 很 多 便捷 。' 
print (string6.index('Python')) 

print (string6.find('Python')) 

# 字符 串 是 否 以 “2018 年 ”开头 

string7 = '2017 年 匆匆 走 过 ， 迎 来 崭新 的 2018 年 ， 
print (string7.startswith('2018 年 ')) 

# 字符 串 是 否 以 “2018 年 ”结尾 

print (string7.endswith ('2018 年 ')) 


out: 

19890101 

136****5678 

["12345', 'qq.com'] 

P-y-t-h-o-n 

今天 星期 日 

今天 星期 日 
今天 星期 日 

2 

4 

4 

False 

True 


需要 说 明 的 是 , 字符 串 的 index 和 find 方法 都 是 只 能 返回 首次 发 现 子 串 的 位 置 , 如 果子 串 在 原 
字符 串 中 没有 找到 ， 对 于 index 方法 来 说 ， 则 返回 报错 信息 ， 对 于 find 方法 ， 则 返回 值 -1。 所 以 ， 
推荐 使 用 find 方法 寻找 子 串 的 位 置 ， 因 为 即使 找 不 到 子 串 也 不 会 因为 错误 而 影响 其 他 程序 的 正常 
执行 。 

有 时 ， 光 靠 字符 串 的 这 些 “ 方 法 ”无 法 实现 字符 串 的 其 他 处 理 功能 ， 例 如 ， 怎 样 在 字符 串 中 
找到 有 规律 的 目标 值 、 怎样 替换 那些 不 是 固定 值 的 目标 内 容 、 怎样 按 照 多 个 分 隔 符 将 字符 串 进行 切 
割 等 。 关 于 这 方面 问题 的 解决 ， 需 要 用 到 字符 串 的 正则 表达 式 ， 接 下 来 我 们 就 进入 正则 表达 式 的 学 


习 。 
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3.3.2 ”正则 表达 式 


正则 表达 式 就 是 从 字符 串 中 发 现 规律 ， 并 通过 “抽象 ”的 符号 表达 出 来 。 打 个 比方 ， 对 于 
2,5,10,17,26,37 这 样 的 数字 序列 ， 如 何 计算 第 7 个 值 ， 肯 定 要 先 找 该 序列 的 规律 ， 然 后 用 +1 这 个 
表达 式 来 描述 其 规律 ， 进 而 得 到 第 7 个 值 为 50。 对 于 需要 匹配 的 字符 串 来 说 ， 同 样 把 发 现 规律 作 
为 第 一 步 ， 本 节 主 要 使 用 正则 表达 式 完成 字符 串 的 查询 匹配 、 蔡 换 匹 配 和 分 割 匹配 。 在 进入 字符 串 


的 匹配 之 前 ， 先 来 了 解 一 下 都 有 哪些 常用 的 正则 符号 ， 见 表 3-5。 
表 3-5 常用 的 正则 符号 























符号 含义 示例 

可 以 匹配 任意 字符 ， 但 不 包含 换行 符 "nm Pyton > Pytmon 

\ 转 义 符 ， 一 般 用 于 保留 字符 串 中 的 特殊 元 字符 10\3 > 103 

| 逻辑 或 人 alA > 人 a 或 者 人 和 A 
0 用 于 匹配 的 一 组 字符 mlaAjn > man 或 者 mAn 
\d 与 \D Yd 匹配 任意 数字 ，\D 代表 所 有 非 \d 今天 d 号 > 今天 3 号 

's 5\S \s 匹配 任意 空白 字符 , \S 代表 所 有 非 's 你 s 好 > 你 好 

Ww 与 \W Ww 匹配 字母 数字 和 下 划 线 ，\W 代表 所 有 非 \w Pwy 六 Pay 或 者 P3y 

和 匹配 前 一 个 字符 0 到 无 穷 次 OK* 祖 O 或 者 OK 或 者 OKK 
+ 匹配 前 一 个 字符 1 到 无 穷 次 OK+ 户 OK 或 者 OKK 

2 匹配 前 一 个 字符 0 到 1 次 OK? > 0 或 者 OK 

{m} 匹配 前 一 个 字符 m 次 OK {3} > OKKK 

{mn} 匹配 前 一 个 字符 m 到 n 次 OK{1.2} > OK 或 者 OKK 
(*?) 用 于 分 组 ， 默 认 返 回 括号 内 的 匹配 内 容 可 见 后 续 案例 





如 果 读者 能 够 比较 熟练 地 掌握 表 3-5 中 的 内 容 , 相信 在 字符 串 处 理 过 程 中 将 会 游 轧 有余。 如 前 
文 所 说 ， 本 节 将 基于 正则 表达 式 完 成 字符 串 的 查询 、 蔡 换 和 分 割 操作 ， 这 些 操作 都 需要 导入 re 模 


块 ， 并 使 用 如 下 几 个 函数 。 
1. 匹配 查询 函数 


findall(pattern, string, flags=0) 








findall 函数 可 以 对 指定 的 字符 串 进行 遍历 匹配 , 获取 字符 串 中 所 有 匹配 的 子 串 , 并 返回 一 个 列 


表 结 果 。 该 函数 的 参数 含义 如 下 : 


@ pattermn: 指定 需要 匹配 的 正则 表达 式 。 
estring: 指定 待 处 理 的 字符 囊 。 








flags: 指定 匹配 模式 ， 常 用 的 值 可 以 是 re.I、re.M、re.S 和 re.X。re.I 的 模式 是 让 正则 表达 式 
对 大 小 写 不 敏感 ; re.M 的 模式 是 让 正则 表达 式 可 以 多 行 匹配 ; re.S 的 模式 指明 正则 符号 .可 以 
匹配 任意 字符 ， 包 括 换行 符 m; re.X 模式 允许 正则 表达 式 可 以 写 得 更 加 详细 ， 如 多 行 表示 、 


忽略 空白 字符 、 加 入 注释 等 。 


2. 匹配 替换 函数 


sub(pattern, repl, string, count=0, flags=0) 
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sub 函数 的 功能 是 蔡 换 ， 类 似 于 字符 串 的 replace 方法 ， 该 函数 根据 正则 表达 式 把 满足 匹配 的 
内 容 蔡 换 为 repl。 该 函数 的 参数 含义 如 下 : 


pattern: 同 findall 函数 中 的 pattern。 

repl: 指定 蔡 换 成 的 新 值 。 

string: 同 findall 函数 中 的 string。 

count: 用 于 指定 最 多 替换 的 次 数 ， 默 认为 全 部 替换 。 
flags: 同 findall 函数 中 的 flags。 


3. 匹配 分 割 函数 


split(pattern, string, maxsplit=0, flags=0) 
split 函数 是 将 字符 串 按照 指定 的 正则 表达 式 分 隔 开 ， 类 似 于 字符 串 的 split 方法 。 该 函数 的 具 
体 参数 含义 如 下 : 


pattern: 同 findall 函数 中 的 pattern。 

maxsplit: 用 于 指定 最 大 分 割 次 数 ， 默 认为 全 部 分 割 。 
string: 同 findall 函数 中 的 string。 

flags: 同 findall 函数 中 的 flags。 


如 果 上 面 的 函数 和 参数 含义 都 已 经 掌握 了 ， 还 需要 进一步 通过 案例 加 强 理解 ， 接 下 来 举例 说 
明 上 面 的 三 个 函数 : 
# 导入 用 于 正则 表达 式 的 re 模块 


import re 

# 取出 字符 中 所 有 的 天 气 状态 

string8 = "{ymd:'2018-01-01',tianqi:' 晴 ' ,aqiInfo:' 轻 度 污染 '}, {ymd: '2018-01-02' ,tianqi:' 阴 ~ 小 
雨 ',aqiInfo:' 优 '}, {ymd:'2018-01-03',tianqgi:' 小 雨 ~ 中 雨 ', aqiInfo:' 优 '}, {ymd:'2018-01-04',tianqi:' 中 
雨 ~ 小 雨 ' ,aqiInfo: ' 优 ' }" 

print (re.findall ("tiangqi:'(.*?)'", string8)) 


# 取出 所 有 含 0 字母 的 单词 

string9 = 'Together, we discovered that a free market only thrives when there are rules to 
ensure competition and fair play, Our celebration of initiative and enterprise' 

print (re.findall ('\w*o\w*', string9, flags = re.I)) 


# 将 标点 符号 、 数 字 和 字母 删除 

string10 = "据悉 ， 这 次 发 运 的 4 台 蒸汽 冷凝 缸 属 于 国际 热 核 聚变 实验 堆 (ITER) 项 目的 核 二 级 压力 设备 ， 先 后 完成 了 
压力 试验 、 真 空 试 验 、 氢 气 检 漏 试验 、 千 斤 项 试验 、 吊 耳 载荷 试验 、 和 三 装 试验 等 验收 试验 。" 

print (re.sub(' [,。 a-zA-20-9 () ]','', string10)) 


# 将 每 一 部 分 的 内 容 分 割 开 

stringll = '2 室 2 厅 | 101.62 平 | 低 区 /7 层 | 朝 南 \n 上 海 未 来 - 浦东 - 金 杨 - 2005 年 建 ' 
split = re.split('[-\1N\n]'，stringl11) 

print (split) 

split strip = [i.strip() for i in split] 

print (split strip) 


out: 
[' 晴 '，' 阴 ~ 小 雨 '"，' 小 雨 ~ 中 雨 '"，' 中 雨 ~ 小 雨 '] 


['Together', 'discovered', 'only', 'to', 'competition', 'Our', 'celebration', 'of'] 
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据悉 这 次 发 运 的 台 燕 汽 冷 凝 乓 属于 国际 热 核 聚变 实验 堆 项 目的 核 二 级 压力 设备 先后 完成 了 压力 试验 真空 试验 氢气 检 漏 试验 
千斤 项 试验 吊 耳 载荷 试验 装 装 试验 等 验收 试验 

['2 室 2 厅 '，,， 101.62 平 ',' 低 区 /7 层 ',， 朝 南 '，，， 上海 示 来 "，' 浦东 ',，' 金 杨 '，， 2005 年 建 '] 

['2 室 2 厅 '，'101.62 平 '，' 低 区 /7 层 '，' 朝 南 '，' 上 海 未 来 '，' 浦 东 '，' 金 杨 ' ，'2005 年 建 '] 

如 上 结果 所 示 ， 在 第 一 个 例子 中 通过 正则 表达 式 "tianqi:(.*?)" 实 现 目 标 数 据 的 获取 ， 如果 不 使 
用 括号 的 话 , 就 会 产生 类 似 "tianqi:' 晴 ", "tianqi:" 阴 ~ 小 雨 "这 样 的 值 , 所 以 , 加 上 括号 就 是 为 了 分 组 ， 
且 仅 返回 组 中 的 内 容 ; 第 二 个 例子 并 没有 将 正则 表达 式 写 入 圆 括号 , 如 果 写 上 圆 括号 也 是 返回 一 样 
的 结果 ， 所 以 findall 就 是 用 来 返回 满足 匹配 条 件 的 列表 值 ， 如 果 有 括号 ， 就 仅 返 回 括号 内 的 匹配 
值 ; 第 三 个 例子 使 用 蔡 换 的 方法 ,将 所 有 的 标点 符号 换 为 空 字符 ,进而 实现 删除 的 效果 ; 第 四 个 例 
子 是 对 字符 串 的 分 制 ， 如 果 直 接 按照 正则 '[，。、a-zA-Z0-9() ]' 分 割 的 话 ， 返 回 的 结果 中 包含 
空 字符 ， 如 2 室 2 厅 ' 后 面 就 有 一 个 空 字符 。 为 了 删除 列表 中 每 个 元 素 的 首尾 空 字符 ， 使 用 了 列 
表 表 达 式 ， 并 且 结 合 字符 串 的 strip 方法 完成 空 字符 的 压缩 。 














3.4” 自 定义 函数 


3.4.1 自 定义 函数 语法 


虽然 Python 的 标准 库 中 自 带 了 很 多 “方法 ”或 函数 , 并 且 第 三 方 模块 也 提供 了 更 多 的 现成 “ 方 
法 ”与 函数 ， 但 有 时 还 是 不 能 满足 学 习 或 工作 中 的 需求 ， 这 时 就 需要 自 定义 函数 了 。 另 外 ， 为 了 避 
免 重 复 代 码 的 编写 , 也 可 以 将 常用 的 代码 块 封装 为 函数 , 在 需要 时 调用 函数 即 可 ,这 样 也 会 使 代码 
简洁 易 读 。 

在 Python 中 有 一 种 自 定义 函数 叫 匿名 函数 ， 可 以 用 lambda 关键 字 定义 。 通 过 lambda 构造 的 
函数 可 以 没有 名 称 ， 最 大 特点 是 “一 气 呵 成 ”， 即 在 自 定义 匿名 函数 时 ， 所 有 代码 只 能 在 一 行内 完 
成 ， 语 法 如 下 : 


lambda parameters : function expression 


如 上 语法 中 , lambda 为 匿名 函数 的 关键 起 始 词 ; parameters 是 函数 可 能 涉及 的 形 参 , 如果 有 多 
个 参数 ， 需 要 用 英文 状态 的 逗号 陋 开 ;，function_expression 为 具体 的 函数 体 。 需 要 再 次 强调 的 是 ， 
如 果 需 要 构造 的 函数 不 是 很 复杂 ， 可 以 使 用 lambda 匿名 函数 一 气 呵 成 地 表达 完 ， 否 则 就 只 能 使 用 
def 关键 字 构 造 有 名 称 的 自 定义 函数 了 。 下 面 举 一 个 实例 来 描述 lambda 匿名 函数 的 使 用 : 


# 统计 列表 中 每 个 元 素 的 频次 
list6 = ['A','A','B', A ,A,B Cr, B,C 'B', B,D','c'] 





# 构建 空 字典 ， 用 于 频次 统计 数据 的 存储 
dict3 = {} 
# 循环 计算 
for i in set(list6): 

dict3[i] = list6.count (i) 
print (dict3) 


# 取出 字典 中 的 键 值 对 
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key value = list (dict3.items()) 
print (key_value) 


# 列表 排序 
key_value.sort () 
print (key value) 


# 按 频 次 高 低 排序 
key_value.sort (key = lambda x : x[1], reverse=True) 
Print (key value) 


Br By Me A ee 3 

CAD TY (BY Oe Cs 人) 

AA a (Bor WC A (Ds LY 

[8 7 Dh] 

本 案例 的 目的 是 统计 列表 中 的 元 素 频次 ， 并 根据 频次 从 高 到 低 排 序 。 首 先 在 统计 元 素 频次 时 
使 用 了 for 循环 ， 其 中 set 函数 是 构造 集合 对 象 ， 可 以 实现 列表 元 素 的 去 重 ; 然后 直接 对 存储 键 值 
对 的 列表 直接 排序 , 发现 默认 是 按照 字母 排序 ， 见 第 三 行 输 出 ， 并 不 是 以 实际 的 频次 排序 ， 最 后 通 
过 构建 匿名 函数 ， 对 列表 元 素 (每 一 个 键 值 对 元 组 ) 的 第 二 个 元 素 降序 排序 ， 进 而 实现 输出 结果 中 
的 最 后 一 行 效果 。 

虽然 匿名 函数 用 起 来 很 灵活 ， 会 在 很 多 代码 中 遇 到 ， 但 是 它 的 最 大 特点 也 是 它 的 短 板 ， 即 无 
法 通过 lambda 函数 构造 一 个 多 行 而 复杂 的 函数 。 为 了 弥补 其 缺陷 , Python 提供 了 另 一 个 关键 字 def 
构造 复杂 的 自 定义 函数 ， 其 语法 如 下 : 

def function name(parameters): 

function expression 
return (result) 

如 上 语法 中 ，def 是 define 单词 的 缩写 ， 表示 自 定义 ; function_name 为 自 定义 的 函数 名 称 ; 
parameters 为 自 定义 函数 的 形 参 ， 需 要 放 在 圆 括号 内 ， 第 一 行 的 结束 必须 要 加 上 英文 状态 的 冒号 ， 
这 是 很 多 初学 者 容易 忽略 的 细节 ; function_expression 是 具体 的 函数 体 〈 注 意 ， 第 二 行 开始 需要 缩 
进 ) ， 根 据 自 定义 的 需求 ， 可 以 很 简单 也 可 以 很 复杂 ;retum 用 于 返回 函数 的 计算 结果 ， 如 果 有 多 
个 值 需要 返回 ， 可 以 全 部 写 在 return 的 括号 内 ， 并 以 逗号 隔 开 。 首 先 ， 编 写 一 段 猜 数字 游戏 的 自 定 
义 函 数 ， 用 于 说 明 自 定义 函数 的 语法 : 

# 猜 数 字 


def game (min,max): 





import random 
number = random.randint (min,max) ## 随机 生成 一 个 需要 猜 的 数字 
while True: 
guess = float (input(' 请 在 sd 到 sd 之 间 猜 一 个 数字 : ' % (min, max))) 


# if 分 支 判 断 下 一 轮 应 在 什么 范围 内 猜 数 字 
if guess < number: 

min = guess 

print (' 不 好 意思 ， 你 猜 的 数 偏 小 了 ! 请 在 sd 到 sad 之 间 猜 一 个 数 ! '， % (min,max) ) 
elif guess > number: 

max = guess 


print(' 不 好 意思 ， 你 猜 的 数 偏 大 了 ! 请 在 sd 到 sd 之 间 猜 一 个 数 ! ' s (minvmax) ) 
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else: 
Print( "恭喜 你 猜 对 了 ! ') 
Print ( "游戏 结束 ! ') 
break ”上 # 如 果 猜 对 ， 通 过 berak 关键 词 退出 整个 循环 体 


# 调用 函数 
game (10, 20) 


out: 

请 在 10 到 20 之 间 猜 一 个 数字 : 18 

不 好 意思 ， 你 猜 的 数 偏 大 了 ! 请 在 10 到 18 之 间 猜 一 个 数 ! 

请 在 10 到 18 之 间 猜 一 个 数字 : 15 

不 好 意思 ， 你 猜 的 数 偏 小 了 ! 请 在 15 到 18 之 间 猜 一 个 数 ! 

请 在 15 到 18 之 间 猜 一 个 数字 : 17 

不 好 意思 ， 你 猜 的 数 偏 大 了 ! 请 在 15 到 17 之 间 猜 一 个 数 ! 

请 在 15 到 17 之 间 猜 一 个 数字 : 16 

恭喜 你 猜 对 了 ! 

游戏 结束 ! 

如 上 的 猜 数字 游戏 代码 ， 大 家 可 能 见 过 ， 这 里 在 《Python 简明 教程 》 的 基础 上 做 了 一 定 的 修 
改 ， 进 而 可 以 更 加 “智能 ”地 告知 参与 游戏 的 用 户 可 以 在 什么 范围 内 猜 数 。 代 码 中 用 到 的 知识 点 都 
是 前 面 介绍 过 的 基础 内 容 ， 这 里 就 不 对 代码 做 详细 解释 了 。 


3.4.2” 自 定义 函数 的 几 种 参数 


通过 构造 自 定义 函数 ， 可 以 避免 元 余 代码 的 出 现 。 关 于 Python 中 的 自 定义 函数 ， 还 有 四 类 重 
要 的 参数 需要 跟 读者 一 一 解释 ， 即 必 选 参数 、 默 认 参数 、 可 变 参 数 和 关键 字 参 数 。 

1. 必 选 参数 

必 选 参数 ， 顾 名 思 义 就 是 当 你 在 调用 一 个 自 定义 函数 时 必须 给 函数 中 的 必 选 参数 赋值 ， 否 则 
程序 将 会 报错 ， 并 提醒 用 户 “ 缺 少 一 些 必 选 的 位 置 参 数 ”。 就 以 上 面 的 猜 数字 函数 为 例 ， 如 果 不 给 
该 函数 的 max 参数 传递 一 个 值 ， 结 果 就 是 这 样 的 : 


TypeError Traceback (most recent call last) 
<ipython-input-2-7387fa08e542> in <module>() 
----> 1 game (min = 10) 


TypeError: game() missing 1 required positional argument: ‘max' 

如 上 所 示 ， 返 回 “ 类 型 错误 ”的 提示 ， 再 具体 查看 最 后 一 行 的 反馈 信息 ， 结 论 为 “game 函数 
缺少 一 个 必要 的 位 置 参数 max” 表 明 game 函数 需要 给 max 参数 传 值 。 

2. 默认 参数 

默认 参数 是 指 在 构造 自 定义 函数 的 时 候 就 已 经 给 某 些 参数 赋予 了 各 自 的 初 值 ， 当 调用 函数 时 ， 
这 样 的 参数 可 以 不 用 传 值 。 例 如 计算 1 到 n 的 p 次 方 和 : 

# 自 定义 函数 


def square_sum(n, p = 2): 
result = sum([i ** p for i in range(1,n+1)]) 
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return(n,p,result) 


print ('1 到 sd 的 sd 次 方 和 为 sd! ' $square_sum(200) ) 
print ('1 到 sd 的 sd 次 方 和 为 sd! ' $square_sum(200,3) ) 


out: 
1 到 200 的 2 次 方 和 为 26867001 
1 到 200 的 3 次 方 和 为 4040100001! 


如 上 构造 的 自 定义 函数 中 ，n 为 必 选 参数 ，p 为 默认 参数 。 根 据 结 果 显 示 ， 在 第 一 次 调用 函数 
时 ， 并 没有 给 p 参数 传递 任何 值 ， 函 数 正常 运行 ， 而 且 默 认 计 算 平方 和 ; 在 第 二 次 调用 函数 时 ,给 
p 传递 了 新 值 3， 此 时 p 参数 由 原来 的 2 换 成 了 3， 进 而 可 以 计算 立方 和 。 

3. 可 变 参数 


上 面 讲解 的 必 选 参数 和 默认 参数 都 是 在 已 知 这 个 自 定义 函数 需要 多 少 个 形 参 的 情况 下 构建 的 ， 
如 果 不 确定 该 给 自 定义 函数 传 入 多 少 个 参数 值 时 , 该 如 何 自 定义 函数 呢 ? 这 么 说 可 能 有 点 抽象 , 接 
下 来 通过 对 比 的 例子 来 说 明 。 

例如 ,小 明 的 弟弟 小 亮 刚 读 一 年 级 , 老师 布置 了 一 些 关 于 两 个 数 的 求 和 运算 , 针对 这 个 问题 ， 
我 们 可 以 构建 如 下 的 自 定义 函数 : 

# 两 个 数 的 求 和 

def add (a,b): 


s = sum([ab]) 
return(a,b,s) 


print ('%d 加 %d 的 和 为 sd! ， %ada (10,13)) 


out: 
10 加 13 的 和 为 231 


如 果 只 是 两 个 数 求 和 的 问题 可 以 很 简单 地 利用 自 定义 函数 add 解决 , 但 如 果 不 是 两 个 数 之 和 ， 
而 是 三 个 数 或 四 个 数 或 五 个 数 之 和 , 也 就 是 说 不 确定 接 下 来 会 计算 几 个 数 的 和 , 这 时 再 使 用 上 面 的 
add 函数 似乎 就 不 合理 了 。 好 在 Python 给 自 定义 函数 提供 了 可 变 参 数 ， 目 的 就 是 解决 这 类 问题 。 
举例 如 下 : 


# 任意 个 数 的 数据 求 和 
def adds (*args): 
print (args) 
s = suml(args) 
return(s) 


Print (' 和 为 $d!' %adds(10,13,7,8,2)) 
Print (' 和 为 %d!' s%adds(7,10,23,44,65,12,17)) 


out: 

人 

和 为 40! 

Wy De 237 MAY Cor ly LT 
和 为 1781! 


如 上 自 定义 函数 中 ， 参数 args 前 面 加 了 一 个 星 号 *， 这 样 的 参数 就 称 为 可 变 参数 ， 该 参数 是 可 
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以 接纳 任意 多 个 实 参 的 。 之 所 以 能 够 接纳 任意 多 个 实 参 , 是 因为 该 类 型 的 参数 将 这 些 输入 的 实 参 进 
行 了 捆绑 ， 并 且 组 装 到 元 组 中 ， 正 如 输出 结果 中 的 第 一 行 和 第 三 行 ， 就 是 自 定义 函数 中 print(args) 
语句 的 效果 。 
4. 关键 字 参数 
虽然 一 个 可 变 参数 可 以 接受 多 个 实 参 ， 但 是 这 些 实 参 都 被 捆绑 为 元 组 了 ， 而 且 无 法 将 具体 的 
实 参 指定 给 具体 的 形 参 , 那 有 没有 一 种 参数 既 可 以 接受 多 个 实 参 , 又 可 以 把 多 个 实 参 指定 给 各 自 的 
实 参 名 呢 ? 答案 是 关键 字 参 数 ， 而且 这 种 参数 会 把 带 参数 名 的 参数 值 组 装 到 一 个 字典 中 , 键 就 是 具 
体 的 实 参 名 ， 值 就 是 传 入 的 参数 值 。 为 了 帮助 读者 理解 关键 字 参 数 的 含义 ， 下 面 举 一 个 例子 来 解释 
关键 字 参 数 。 
例如 某 电 商 平台 ， 在 用 户 注册 时 ， 用 户 的 手机 号 及 出 生日 期 为 必 填 项 ， 其 他 信息 为 选 填 项 。 
对 于 选 填 项 来 说 , 电 商 平台 并 不 知道 用 户 会 不 会 填 ， 以 及 可 能 填 多 少 个 信息 ,而 且 这 些 信 息 都 是 有 
对 应 含义 的 。 为 了 搜集 信息 ， 可 以 创建 一 个 含 关 键 字 参 数 的 自 定义 函数 : 
# 关键 字 参 数 
def info collection(tel, birthday, **kwargs): 
user_info = {}  # 构造 空 字典 ， 用 于 存储 用 户 信息 
user info['tel'] = tel 
user info['birthday'] = birthday 
user info.update (kwargs) 


# 用 户 信息 返回 


return(user info) 





# 调用 函数 
info_collection(13612345678, '1990-01-01',nickname=' 月 亮 ', gender = ' 女 ',edu = ' 硕 士 ', income = 
15000,add =' 上 海 市 浦东 新 区 ' ,interest = [' 游 泳 ', ' 唱 歌 ', ' 看 电影 '] ) 


out: 

{"'add': ' 上 海 市 浦东 新 区 '，'nickname' : ' 月 亮 '，'income': 15000，'interest': [' 游 泳 '，' 唱 歌 '，，' 
看 电影 '] ，'gender': ' 女 '，'edu' : ' 硕 士 '} 

{"add': ' 上 海 市 浦东 新 区 '， 

'birthday': '1990-01-01°', 

"edu' : "硕士 '， 

"gender': ' 女 '， 

"income': 15000, 

"interest': [' 游 泳 '，' 唱 歌 '，' 看 电影 ']， 

'nickname' : ' 月 亮 '， 

'tel': 13612345678} 


如 上 结果 所 示 , 在 自 定义 函数 info_collection 中 ，tel 和 birthday 都 是 必 选 参数 ，kwargs 为 关键 
字 参 数 。 当 调用 函数 时 ，tel 和 birthday 两 个 参数 必须 要 传 入 对 应 的 值 ， 而 其 他 的 参数 都 是 用 户 任 
意 填写 的 ， 并 且 关 键 字 参 数 会 把 这 些 任 意 填 写 的 信息 组 装 为 字典 ， 如 输出 中 的 第 一 行 信息 ; 为 了 把 
必 选 参数 的 值 和 关键 字 参 数 的 值 都 汇总 起 来 ， 在 自 定 义 函 数 时 初 设 了 空 字典 user_ info， 并 通过 字 
典 元 素 增加 的 方法 完成 用 户 信息 的 搜集 ， 如 输出 的 第 二 个 结果 。 
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3.5 “一 个 怜 虫 案例 


虽然 前 面 的 基础 知识 点 都 通过 一 些小 例子 加 以 解释 和 说 明 ， 但 毕竟 都 是 零散 的 。 为 了 能 够 将 


前 文 的 基础 知识 点 串 起 来 ,下 面 给 出 一 个 简单 的 爬虫 案例 , 希望 读者 在 学 习 该 案例 的 同时 ,更 进 一 
步 地 认识 到 基础 知识 的 重要 性 。 


该 案例 主要 是 为 了 获取 某 城市 的 历史 天 气 数据 ， 字 段 包含 日 期 、 最 低 气温 、 最 高 气温 、 风 向 、 





风力 、 天 气 状况 、 空 气质 量 指标 值 、 空 气质 量 等 级 和 空气 质量 说 明 ， 所 有 数据 一 共 包含 2544 天 的 
记录 。 下 面 就 详细 写 出 整个 假 忠 的 代码 : 


# 导入 第 三 方 包 
import requests # 用 于 URL 的 请 求 和 数据 获取 
import time # 用 于 时 间 的 停顿 


import random # 用 于 随机 数 的 生成 
import pandas as pd # 用 于 数据 的 导出 
import re # 用 于 正则 表达 式 的 使 用 


# 构造 请 求 头 

headers = { 

"Accept' :'*/*', 

'Accept-Encoding':'gzip, deflate', 

'Accept-Language':'zh-CN,zh;q=0.9°', 

'Connection':'keep-alive', 

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/63.0.3236.0 Safari/537.36' 

x 


# 生成 所 有 需要 抓 取 的 链接 
urls = [] 
for year in range(2011,2018) : # 遍历 2011 年 至 2017 年 
for month in range (1,13): # 遍历 1 月份 至 12 月 份 
# 由 于 2011 年 ~2016 年 的 链接 与 2017 年 的 链接 存在 一 点 点 差异 ， 需 要 分 支 处 理 
if year <= 2016: 
urls.append('http://tianqi.2345.com/t/wea history/js/58362 %s%s.js' 
$$(year,month)) 
else: 
# 2017 年 的 月 份 中 ，1~9 月 前 面 都 有 数字 0， 需 要 分 支 处 理 
if month<10: 
urls.append('http://tianqi.2345.com/t/wea history/js/%s0%s/58362_%s0%s.js' 
% (year, month, year, month)) 
else: 
urls.append ('http://tianqi.2345.com/t/wea_ history/js/%s%s/58362 %s%s.js' 
S$ (year, month, year, month) ) 


# 循环 并 通过 正则 匹配 获取 相关 数据 
info = [] ”# 构建 空 列表 ， 用 于 所 有 天 气 数据 的 存储 
for url in urls: 
seconds = random.randint (3,6) 。 # 每 次 循环 ， 都 随机 生成 一 个 3~6 之 问 的 整数 
response = requests.get (url， headers = headers) .text “# 发 送 url 链接 的 请 求 ， 并 返回 响应 数据 
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ymd = re.findall ("ymd:'(.*?)',",response) # 正则 表达 式 获取 日 期 数据 

high = re.findall("bWendu:' (.*?)'C',",response) # 正则 表达 式 获取 最 高 气温 数据 

low = re.findall ("yWendu:'(.*?)'C',",response) # 正则 表达 式 获取 最 低 气温 数据 
tianqi = re.findall ("tianqi:'(.*?)',",response) # 正则 表达 式 获取 天 气 状况 数据 
fengxiang = re.findall ("fengxiang:' (.*?)',",response) # 正则 表达 式 获取 风向 数据 
fengli = re.findall(", fengli:'(.*?)'",response) ## 正则 表达 式 获取 风力 数据 

aqi = re.findall ("aqi:'(.*?)',",response) # 正则 表达 式 获取 空气 质量 指标 数据 

aqiInfo = re.findall("aqiInfo:'(.*?)',",response) # 正则 表达 式 获 取 空 气质 量 说 明 数 据 


aqiLevel = re.findall(",aqiLevel:'(.*?)'",response) ## 正则 表达 式 获 取 空 气质 量 水 平 数 据 


# 由 于 2011~2015 没有 空气 质量 相关 的 数据 ， 故 需要 分 开 处 理 
if len(aqi) == 0: 
aqi = None 
aqiInfo = None 
aqiLevel = None 
info .append(pd.DataFrame ({'ymd':ymd, 'high':high,'low':low, 'tianqi' :tiangi, 
'fengxiang':fengxiang,'fengli':fengli, 'aqi':aqi, 
"aqiInfo':aqiInfo, 'aqiLevel':aqiLevel})) 
else: 
info.append(pd.DataFrame ({'ymd':ymd, 'high':high,'low' :low, 'tianqi':tiangi, 
'fengxiang':fengxiang,'fengli':fengli, 'aqi':aqi, 
"aqiInfo' :aqiInfo, 'aqiLevel':aqiLevel})) 
time .sleep (seconds) # 每 循环 一 次 ， 都 随机 停顿 几 秒 


# 将 存储 的 所 有 天 气 数据 进行 合并 ， 生 成 数据 表格 
weather = pd.concat (info) 
# 数据 导出 


weather.to_csv('weather.csv',index = False) 


代码 说 明 : 如 上 所 示 的 候 虫 代码 中 , 绝 大 多 数 都 添加 了 相应 的 注释 性 语言 , 另外 再 解释 两 点 ， 





最 终 运行 完 上 面 的 Python 爬虫 代码 ， 就 可 以 获得 如 下 结构 的 数据 表 : 






























































2015/12/29| 4 。 9 二 去 HE 网 -~ 东 Ht 网 Ea 
2015/12/30| 4] “12 大 去 了 Ea 
2015/12/31| Ea 
2016/1/1| E33 | 3 
2016/Y2 Ea 167| 本 
2016113 Ea 210| | 
2016/1/4, EE | 144| 3 
2016/Y5) 3 及 | % 1 
2016/1/5) Ea 下 3 
2015/V7| Ea [uo 3 
201608| Ea [126 引 
2016/1/9] Ea | 149 引 | 冯 
2016/1/10| Ea 四 到 
2016/V/11| 区 局 醒 卫 | 
2016/Y12| Ea | 6 
2016H13 Ea | am 本 
2016/1/14| EB | 229 | 
2016/15) Ea | 180| | 
2016/1/16| Ea Ey 本 


























一 个 是 爬虫 中 添加 字典 类 型 的 请 求 头 headers， 这 样 做 的 目的 是 为 了 将 Python 伪装 成 一 个 真实 的 浏 
览 器 ， 进 而 促使 被 访问 的 网 站 〈 或 者 称 服务 器 ) 将 Python 当 作 一 个 正常 的 访问 用 户 ; 另 一 个 是 在 
息 虫 的 循环 中 随机 停顿 几 秒 , 这 样 做 的 目的 是 为 了 减轻 被 访问 网 站 的 流量 压力 , 否则 单机 在 一 秒 内 
访问 对 方 十 几 次 甚至 上 百 次 , 会 消耗 对 方 很 多 资源 。 之 所 以 在 代码 中 添加 这 两 方面 的 内 容 ， 都 是 为 
了 防止 被 访问 的 网 站 对 息 虫 代码 实施 反扑 举措 , 如 访问 需要 输入 验证 码 、 重 新 登录 甚至 是 封闭 卫 。 
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3.6 ”本 章 小 结 


本 章 主要 向 读者 介绍 了 有 关 Python 的 基础 知识 , 包含 三 种 基本 的 数据 结构 及 对 应 的 常用 方法 、 
三 类 控制 流 语法 、 字 符 串 的 常用 处 理 方法 、 正 则 表达 式 的 灵活 使 用 、 如 何 编写 自 定义 函数 以 及 如 何 
基于 这 些 知识 点 完成 一 个 小 的 爬虫 案例 。 通 过 本 章 内 容 的 学 习 ， 和 希望 读者 能 够 牢 牢 掌 握 基础 ， 为 后 
续 章节 的 学 习 做 好 充分 的 准备 。 

最 后 ， 回 顾 一 下 本 章 中 学 到 的 Python“ 方 法 ”和 函数 ， 以 便 读 者 查询 和 记忆 : 


















































Python 模块 Python 函数 或 方法 | 函数 说 明 
append 在 列表 末尾 增加 一 个 元 素 的 “方法 ” 
extend 在 列表 末尾 增加 多 个 元 素 的 “方法 ”( 需 传 入 列表 对 象 ) 
insert 在 列表 的 指定 位 置 插入 一 个 元 素 值 的 “方法 ” 
列 pop 删除 末尾 或 指定 位 置 〈 键 ) 的 列表 (字典) 元 素 的 “方法 ” 
表 Temove 删除 指定 列表 元 素 值 的 “方法 ” 
方 count 统计 列表 、 元 组 或 字符 串 中 某 元 素 的 个 数 的 “方法 ” 
法 index 返回 列表 、 元 组 或 字符 串 中 某 元 素 首次 出 现 位 置 的 “方法 ” 
Sort 列表 元 素 排序 的 “方法 ” 
reverse 列表 元 素 逆转 的 “方法 ” 
copy 列表 或 字典 元 素 复制 的 “方法 ” 
Update 字典 元 素 增加 或 更 改 的 “方法 ” 
setdefault 字典 元 素 增加 的 “方法 ” 
字 popitem 删除 某 个 字典 元 素 的 “方法 ” 
典 clear 列表 或 字典 元 素 清空 的 “方法 ” 
涵 keys 返回 字典 中 所 有 键 的 “方法 ” 
法 values 返回 字典 中 所 有 值 的 “方法 ” 
items 返回 字典 中 所 有 键 值 对 的 “方法 ” 
strip/lstrip/rstrip 删除 字符 串 首尾 /左边 /右边 空白 符 的 “方法 ” 
find 返回 字符 串 中 某 字 符 首次 出 现 位 置 的 “方法 ”( 找 不 到 返回 -1) 
本 split 字符 下 分割 的 “方法 ” 
串 Teplace 字符 串 替 换 的 “方法 ” 
3 startswith 检查 字符 串 是 否 以 某 字符 开头 的 “方法 ” 
法 endswith 检查 字符 串 是 否 以 某 字符 结尾 的 “方法 ” 
join 根据 分 隔 符 将 可 迁 代 对 象 连接 为 字符 串 的 “方法 ” 
findall 字符 串 正 则 匹配 查询 的 函数 
re sub 字符 串 正 则 匹配 替换 的 函数 
split 字符 串 正 则 匹配 分 割 的 函数 
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( 续 表 ) 

Python 模块 Python 函数 或 方法 | 函数 说 明 

int 整 型 转换 函数 

str 字符 型 转换 函数 
/ float 浮 点 型 转换 函数 

print 打印 函数 

Tange 用 于 生成 序列 的 函数 
random Tandint 随机 整数 生成 函数 
requests get 网 页 的 get 请 求 函 数 
time sleep 睡眠 函数 

dataFrame 数据 框 转换 函数 
pandas concat 数据 集 的 横 〈 纵 ) 向 拼接 函数 

to csv 数据 导出 函数 














第 4 章 


Python 数值 计算 工具 一 一 Numpy 


尽管 在 第 3 章 中 介绍 了 有 关 存 储 数据 的 列表 对 象 ， 但 是 其 无 法 直接 参与 数值 运算 〈 虽 然 可 以 
使 用 加 法 和 乘法 ， 但 分 别 代表 列表 元 素 的 增加 和 重复 ) 。 本 章 将 介绍 另 一 种 非常 有 用 的 数据 结构 
那 就 是 数组 ， 通 过 数组 可 以 实现 各 种 常见 的 数学 运算 ， 而 且 基于 数组 的 运算 ， 也 是 非常 高 效 的 。 
i 是 讲解 有 关 Python 数值 运算 的 numpy 模块 , 通过 numpy 模块 的 学 习 , 你 将 掌握 如 
下 几 方 面 的 内 容 ， 进 而 为 后 面 章 节 的 统计 运算 和 机 器 学 习 打 下 基础 : 
数组 的 创建 与 操作 ; 
数组 的 基本 数学 运算 ; 
常用 数学 和 统计 函数 ; 
线性 代数 的 求解 ; 

伪 随 机 数 的 创建 。 





© 0 0 0。 


4.1 数组 的 创建 与 操作 


通过 numpy 模块 中 的 array 函数 实现 数组 的 创建 , 如 果 向 函数 中 传 入 一 个 列表 或 元 组 , 将 构造 
简单 的 一 维 数组 ;, 如 果 传 入 多 个 嵌 套 的 列表 或 元 组 ， 则 可 以 构造 一 个 二 维 数组 。 构 成 数组 的 元 素 都 
是 同 质 的 ， 即 数组 中 的 每 一 个 值 都 具有 相同 的 数据 类 型 ， 下 面 分 别 构造 一 个 一 维 数组 和 二 维 数组 。 


4.1.1 数组 的 创建 


# 导入 模块 ， 并 重 命名 为 np 

import numpy as np 

# 单个 列表 创建 一 维 数组 

arrl = np.array([3,10,8,7,34,11,28,72]) 
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# 懂 套 元 组 创建 二 维 数组 

arr2 = np.array(((8.5,6,4.1,2,0.7), (1.5,3,5.4,7.3,9), 
(3.2,3,3.8,3,3), (11.2,13.4,15.6,17.8,19))) 

Print (' 一 维 数组 : \n' ,arr1) 

print (' 二 维 数组 : \n' ,arr2) 


out: 

一 维 数组 : 

E3008 34 1 20° 72] 
二 维 数 组 : 

LL ‘S55 6% 4.1 2. 0.7] 
有 
| WE 3.8 3, 3. ] 

[ 11.2 13.4 15.6 17.8 19. ]] 


如 上 结果 所 示 ， 可 以 将 列表 或 元 组 转换 为 一 个 数组 ， 在 第 二 个 数组 中 ， 输 入 的 元 素 含 有 整数 
型 和 浮 点 型 两 种 数据 类 型 ， 但 输出 的 数组 元 素 全 都 是 浮 点 型 (原来 的 整 型 会 被 强制 转换 为 浮 点 型 ， 
从 而 保证 数组 元 素 的 同 质 性 ) 。 

使 用 位 置 索引 可 以 实现 数组 元 素 的 获取 ， 虽 然 在 列表 中 讲解 过 如 何 通过 正 向 单 索引 、 负 向 单 
索引 、 切 片 索引 和 无 限 索 引 获 取 元 素 ， 但 都 无 法 完成 不 规律 元 素 的 获取 ， 如 果 把 列表 转换 为 数组 ， 
这 个 问题 就 可 以 解决 了 ， 下 面 介绍 具体 的 操作 。 


4.1.2 ”数组 元 素 的 获取 


先 来 看 一 下 一 维 数组 元 素 与 二 维 数组 元 素 获 取 的 例子 ， 代 码 如 下 


# 一 维 数组 元 素 的 获取 
print (arrl[[2,3,5,7]]) 


# 二 维 数组 元 素 的 获取 

# 第 2 行 第 3 列 元 素 
print (arr2[1,2]) 

# 第 3 行 所 有 元 素 
Print (arr2[2,:]) 

# 第 2 列 所 有 元 素 

print (arr2[:,1]) 

# 第 2 至 4 行 , 2 至 5 行 
print (arr2[1:4,1:5]) 


out: 
EO TT 


[3 3563 30 

DET a 1 

如 上 结果 是 通过 位 置 索引 获取 一 维和 二 维 数组 中 的 元 素 ， 在 一 维 数组 中 ， 列 表 的 所 有 索引 方 
法 都 可 以 使 用 在 数组 上 ， 而 且 还 可 以 将 任意 位 置 的 索引 组 装 为 列表 , 用 作对 应 元 素 的 获取 ; 在 二 维 
数组 中 ， 位 置 索引 必须 写成 [rows,cols] 的 形式 ， 方 括号 的 前 半 部 分 用 于 控制 二 维 数组 的 行 索引 ， 后 
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半 部 分 用 于 控制 数组 的 列 索引 。 如 果 需 要 获取 所 有 的 行 或 列 元 素 ,那么 ， 对 应 的 行 索引 或 列 索引 需 
要 用 英文 状态 的 冒号 表示 。 但 是 ， 要 是 从 数组 中 取出 某 几 行 和 某 几 列 ， 通 过 [rows,cols] 的 索引 方法 
就 不 太 有 效 了 ， 例 如 : 

# 第 一 行 、 最 后 一 行 和 第 二 列 、 第 四 列 构成 的 数组 

Print (arr2[[0,-1], [1,3]]) 

# 第 一 行 、 最 后 一 行 和 第 一 列 、 第 三 列 、 第 四 列 构成 的 数组 

print (arr2[[0,-1], [1,2,3]]) 


out 
[ 6. 17.8] 
IndexError Traceback (most recent call last) 


<ipython-input-98-c98fd95714b3> in <module>() 

2 print(arr2[[0,-1], [1,3]]) 

3 # 第 一 行 、 最 后 一 行 和 第 一 列 、 第 三 列 、 第 四 列 构成 的 数组 
----> 4 print(arr2[[0,-1],[1,2,3]]) 


IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (2,) 
(3,) 

如 上 结果 所 示 ， 第 一 个 打印 结果 并 不 是 2X2 的 数组 ， 而 是 含 两 个 元 素 的 一 维 数组 ， 这 是 因为 
numpy 将 [[0,-1],[1,3]] 组 合 的 理解 为 了 [0,1] 和 [-1,3]; 同样 ， 在 第 二 个 元 素 索引 中 ，numpy 仍然 将 
[[0,-1],[1,2,3]] 组 合理 解 为 拆 分 单独 的 [rows,cols] 形 式 , 最 终 导致 结果 中 的 错误 信息 。 实际 上 , numpy 
的 理解 是 错误 的 , 第 二 个 输出 应 该 是 一 个 2X3 的 数组 。 为 了 克服 [rows,cols] 索 引 方法 的 次 端 ， 建 议 
读者 使 用 ix_ 函 数 ， 具 体操 作 如 下 : 

# 第 一 行 、 最 后 一 行 和 第 二 列 、 第 四 列 构成 的 数组 

print (arr2 [np.ix_([0,-1], [1,3])]) 


# 第 一 行 、 最 后 一 行 和 第 一 列 、 第 三 列 、 第 四 列 构成 的 数组 
print (arr2 [np.ix_([0,-1], [1,2,3])]) 





out: 
Et 2。 ] 
4935 00 


OG OAT 
[ 13.4 15.6 17.8]] 


4.1.3 ”数组 的 常用 属性 


如 果 不 是 手工 写 入 的 数组 ， 而 是 从 外 部 读 入 的 数据 ， 此 时 也 许 对 数据 就 是 一 无 所 知 ， 如 该 数 
据 的 维 数 、 行 列 数 、 数 据 类 型 等 信息 ， 下 面 通过 简短 的 代码 来 了 解数 组 的 几 个 常用 属性 ， 进 而 跨 出 
了 解数 据 的 第 一 步 。 

在 numpy 模块 中 ， 可 以 通过 genfromtxt 函数 读 取 外 部 文本 文件 的 数据 ， 这 里 的 文本 文件 主要 
为 csv 文件 和 txt 文件 。 关 于 该 函数 的 语法 和 重要 参数 含义 如 下 : 


np .genfromtxt (fname, dtype=<class ‘float’>, comments=’#, delimiter=None, skip header=0, 








skip_footer=0, converters=None, missing values=None, filling values=None, usecols=None, 
names=None, ) 
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fname: 指定 需要 读 入 数据 的 文件 路 径 。 

dtype: 指定 读 入 数据 的 数据 类 型 ， 默 认为 浮 点 型 ， 如 果 原 数据 集中 含有 字符 型 数据 ， 必 须 指 
定数 据 类 型 为 “str”。 

comments: 指定 注释 符 ， 默 认为 “#”"， 如 果 原 数据 的 行 首肯 #”, 将 忽略 这 些 行 的 读 入 。 
delimiter: 指定 数据 集 的 列 分 割 符 。 

skip_header: 是 否 跳 过 数据 集 的 首 行 ， 默 认 不 跳 过 。 

skip_footer: 是 否 跳 过 数据 集 的 脚注 ， 默 认 不 跳 过 。 

converters: 将 指定 列 的 数据 转换 成 其 他 数值 。 

miss_values: 指定 缺失 值 的 标记 ， 如 果 原 数据 集 含 指定 的 标记 ， 读 入 后 这 样 的 数据 就 为 缺失 
值 。 

filling values: 指定 缺失 值 的 填充 值 。 

usecols: 指定 需要 读 入 哪些 列 。 

names: 为 读 入 数据 的 列 设 置 列 名 称 。 


接 下 来 通过 上 面 介 绍 的 数据 读 入 函数 ， 读 取 学 生成 绩 表 数据 ， 然 后 使 用 数组 的 几 个 属性 ， 进 
一 步 掌握 数据 的 结构 情况 。 
# 读 入 数据 


stu score = np.genfromtxt (fname = r'C:\Users\Administrator\Desktop\stu socre.txt', 
delimiter='\t' ,skip header=1) 

# 查看 数据 结构 

print (type (stu score)) 

# 查看 数据 维 数 

print (stu score.ndim) 

# 查看 数据 行列 数 

Print (stu_ score.shape) 

# 查看 数组 元 素 的 数据 类 型 

print (stu score.dtype) 

# 查看 数组 元 素 个 数 


print (stu score.size) 


out: 

<class 'numpy.ndarray'> 

2 

(1380, 5) 

float64 

6900 

如 上 结果 所 示 , 读 入 的 学 生成 绩 表 是 一 个 二 维 的 数组 (type 函数 和 ndim 方法 ) , 一 共 包含 1380 
行 观测 和 5 个 变量 (shape 方法 ), 形成 6900 个 元 素 (size 方法 ), 并 且 这 些 元 素 都 属于 浮 点 型 (dtype 
方法 ) 。 通 过 上 面 的 几 个 数组 属性 ， 就 可 以 大 致 了 解数 组 的 规模 。 


4.1.4 数组 的 形状 处 理 


数组 形状 处 理 的 手段 主要 有 reshape、resize、ravel 、flatten 、vstack 、hstack、row_stack 和 
colum_stack， 下 面 通过 简单 的 案例 来 解释 这 些 “ 方 法 ”或 函数 的 区 别 。 
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arr3 = np.array([[1,5,7], [3,6,1], [2,4,8], [5,8,9], [1,5,9],[8,5,2]]) 
# 数组 的 行列 数 

print (arr3. shape) 

# 使 用 reshape 方法 更 改 数组 的 形状 

print (arr3.reshape (2, 9)) 

# 打印 数组 arr3 的 行列 数 

Print (arr3.shape) 


# 使 用 resize 方法 更 改 数组 的 形状 
print (arr3.resize(2,9)) 

# 打印 数组 arr3 的 行列 数 

Print (arr3.shape) 


out: 
(6, 3) 
CE 5 3 6 1 2.4 .0 
[589159852]] 
(6, 3) 
None 
(2 


如 上 结果 所 示 ， 虽 然 reshape 和 resize 都 是 用 来 改变 数组 形状 的 “方法 ”， 但 是 reshape 方法 

只 是 返回 改变 形状 后 的 预览 , 但 并 未 真正 改变 数组 arr3 的 形状 ; 而 resize 方法 则 不 会 返回 预览 ， 而 

EE 会 直接 改变 数组 arr3 的 形状 ， 从 前 后 两 次 打印 的 arr3 形状 就 可 以 发 现 两 者 的 区 别 。 如 果 需 要 将 
多 维 数 组 降 为 一 维 数组 ， 利 用 ravel、flatten 和 reshape 三 种 方法 均 可 以 轻松 解决 : 


# 构造 3X 3 的 二 维 矩 阵 

arr4 = np.array([[1,10,100], [2,20,200], [3,30,300]]) 
print (' 原 数组 : \n' ,arr4) 

# 默认 排序 降 维 

print (' 数 组 降 维 : \n',arr4.ravel()) 
print (arr4.flatten()) 

Print (arr4.reshape (-1)) 

# 改变 排序 模式 的 降 维 

print (arr4.ravel (order = 'F')) 

print (arr4.flatten (order = 'F')) 
print (arr4.reshape(-1，order = 'F')) 




















out: 

原 数组 : 

[[ 1 10 100] 
[ 2 20 200] 
[ 3 30 300]] 


1 10 100 2 20 200 3 30 300] 
1 10 100 2 20 200. 3 30 300] 
1 10100 2 20 200 3 30 300] 
1 2 3 10 20 30 100 200 300] 
1 2 3 10 20 30 100 200 300] 
1 2 3 10 20 30 100 200 300] 


如 上 结果 所 示 ， 在 默认 情况 下 ， 优 先 按照 数组 的 行 顺序 ， 逐 个 将 元 素 降 至 一 维 〈 见 数组 降 维 
的 前 三 行 打印 结果 ); 如 果 按 原始 数组 的 列 顺序 , 将 数组 降 为 一 维 的 话 , 需要 设置 order 参数 为 “F” 
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( 见 数 组 降 维 的 后 三 行 打印 结果 》。 这 三 者 的 功能 一 致 ， 但 之 间 是 否 存在 差异 呢 ? 接 下 来 对 降 
维 后 的 数组 进行 元 素 修改 ， 看 是 否 会 arr4 的 变化 : 
# 更 改 预览 值 


arr4.flatten() [0] = 2000 
print ('flatten 方 法 : \n',arr4) 
arr4.ravel() [1] = 1000 
Print ('ravel 方法 : \n',arr4) 
arr4.reshape(-1) [2] = 3000 
print ('reshape 方法 : \n',arr4) 


out: 
flatten 方法 : 
[[ 1 10 100] 
[ 2 20 200] 
[ 3 30 300]] 
ravel 方法 : 
[[ 1 1000 100] 
[ 2 20 200] 
[ 3 30 300]] 
reshape 方法 : 
[[ 1 1000 3000] 
[ 2 20 200] 
[ 3 30 300]] 


如 上 结果 所 示 ， 通 过 flatten 方法 实现 的 降 维 返回 的 是 复制 ， 因 为 对 降 维 后 的 元 素 做 修改 ， 并 
没有 影响 到 原 数 组 arr4 的 结果 ; 相反 ，ravel 方法 与 reshape 方法 返回 的 则 是 视图 , 通过 对 视图 的 改 
变 ， 是 会 影响 到 原 数组 arr4 的 。 

vstack 用 于 垂直 方向 (纵向 ) 的 数组 堆 姜 ， 其 功能 与 row_stack 函数 一 致 ， 而 hstack 则 用 于 水 
平方 向 (横向) 的 数组 合并 ， 其 功能 与 colum_stack 函数 一 致 ， 下 面 通过 具体 的 例子 对 这 四 种 函数 
的 用 法 和 差异 加 以 说 明 。 


arr5 = np.array([1,2,3]) 

print ('vstack 纵向 堆 伙 数组 : \n',np.vstack( [arr4,arr5])) 

print ('row_stack 纵向 堆肥 数组 : \n',np.row stack([arr4,arr5])) 

arr6 = np.array([[5], [15],[25]]) 

print ('hstack 横向 合并 数组 : \n',np.hstack( [arr4,arr6])) 

Print ('column_stack 横向 合并 数组 : \n',np.column_stack ([arr4,arr6])) 


out: 
vstack 纵向 堆肥 数组 : 

[[ 1 1000 3000] 

[ 2 20 200] 

[ 3 30 300] 

(30 0 | 
row_stack 纵向 堆 公 数组 : 


[[ 1 1000 3000] 

[ 2 20 200] 

[ 3 30 300] 

| 2 3]] 
hstack 横向 合并 数组 : 


[[ 1 1000 3000 5] 
E20 200 1351 
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[ 3 30 300 25]] 
column stack 横向 合并 数组 : 
[[ 11000 3000 5] 
E20 200 5 
[ 3 30 300 25]] 


如 上 结果 所 示 ， 前 两 个 输出 是 纵向 堆 半 的 效果 ， 后 两 个 则 是 横向 合并 的 效果 。 如 果 是 多 个 数 
组 的 纵向 堆 秋 ,必须 保证 每 个 数组 的 列 数 相同 ; 如 果 将 多 个 数组 按 横向 合并 的 话 ， 则 必须 保证 每 个 
数组 的 行 数 相同 。 


4.2 数组 的 基本 运算 符 


本 章 开 头 就 提 到 列表 是 无 法 直接 进行 数学 运算 的 ,一 旦 将 列表 转换 为 数组 后 ， 就 可 以 实现 各 种 
常见 的 数学 运算 ， 如 四 则 运算 、 比 较 运 算 、 广 播 运算 等 。 


4.2.1 四 则 运算 


在 numpy 模块 中 ， 实 现 四 则 运算 的 计算 既 可 以 使 用 运算 符号 ， 也 可 以 使 用 函数 ， 具 体 如 下 例 
所 示 : 


# 加 法 运算 

math = np.array([98,83,86,92,67,82]) 

english = np.array([68,74,66,82,75,89]) 
chinese = np.array ([92,83,76,85,87,77]) 

tot_ symbol = math+english+chinese 

tot fun = np.add (np.add(math,english),chinese) 
print (' 符 号 加 法 : \n' ,tot_symbol) 

print (' 函数 加 法 : \n', tot_fun) 


# 除法 运算 

height = np.array([165,177,158,169,173]) 

weight = np.array([62,73,59,72,80]) 

BMI_symbol = weight/(height/100)**2 

BMI fun = np.divide (weight, np.divide (height,100)**2) 
print (' 符 号 除法 : \n',BMI_symbol1) 

Print (' 函数 除法 : \n', BMI fun) 


out: 

符号 加 法 : 

[258 240 228 259 229 248] 

函数 加 法 : 

[258 240 228 259 229 248] 

符号 除法 : 

[ 22.77318641 23.30109483 23.63403301 25.20920136 26.7299275 ] 
函数 除法 : 

[ 22.77318641 23.30109483 23.63403301 25.20920136 26.7299275 ] 


四 则 运算 中 的 符号 分 别 是 “+-*/”, 对 应 的 numpy 模块 函数 分 别 是 np.add、np. subtract、np.multiply 
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和 np.divide。 需 要 注意 的 是 ， 函 数 只 能 接受 两 个 对 象 的 运算 ， 如 果 需 要 多 个 对 象 的 运算 ， 就 得 使 用 
嵌 套 方法 ， 如 上 所 示 的 符号 加 法 和 符号 除法 。 不 管 是 符号 方法 还 是 函数 方法 ,都 必须 保证 操作 的 数 
组 具有 相同 的 形状 ， 除 了 数组 与 标量 之 间 的 运算 〈 如 除法 中 的 身高 与 100 的 商 ) 。 另 外 ， 还 有 三 个 
数学 运算 符 ， 分 别 是 余数 、 整 除 和 指数 : 


arr7 = np.array([[1,2,10],[10,8,3], [7,6,5]]) 
arr8 = np.array([[2,2,2], [3,3,3],[4,4,4]]) 
Print (" 数 组 arr7: \n',arr7) 

Print (' 数 组 arr8: \n',arr8) 

# 求 余数 

Print (' 计 算 余 数 ; \n',arr7 % arr8) 

# 求 整除 

Print (' 计 算 整 除 : \n',arr7 // arr8) 

# 求 指数 

print (' 计 算 指 数 : \n',arr7 ** arr8) 


out: 

数组 arr7: 

| 于 | 

[10 8 3] 
可 
数组 arr8: 

[[2 2 2] 

[3 3 31 
Ee 

计算 余数 : 

[[1 0 0] 

[1 2 0] 

[3 2 1]] 

计算 整除 

[[0 1 5] 

[3 2 1] 

[L 11]] 

计算 指数 

[[ 1 4 100] 
[1000 512 27] 
[2401 1296 625]] 


可 以 使 用 “%、//、**” 计 算数 组 元 素 之 间 商 的 余数 、 整 除 部 分 以 及 数组 元 素 之 间 的 指数 。 当 
然 ， 如 果 读 者 比较 喜欢 使 用 函数 实现 这 三 种 运算 的 话 ， 可 以 使 用 np.fmod、np.modf 和 np.power， 
但 是 整除 的 函数 应 用 会 稍微 复杂 一 点 ， 需 要 写成 np.modftarr7/arr8)[1]， 因 为 modf 可 以 返回 数值 的 
小 数 部 分 和 整数 部 分 ， 而 整数 部 分 就 是 要 取 的 整除 值 。 














4.2.2 ”比较 运算 


除了 数组 的 元 素 之 间 可 以 实现 上 面 提 到 的 数学 运算 ， 还 可 以 做 元 素 间 的 比较 运算 。 关 于 比较 
运算 符 有 表 4-1 所 示 的 六 种 情况 。 
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表 4-1 比较 运算 符 及 其 含义 


























符号 函数 含义 

> np.greater(arrl,arr2) 判断 arrl 的 元 素 是 否 大 于 arr2 的 元 素 

> np.greater equal(arrl,arr2) 判断 arrl 的 元 素 是 否 大 于 等 于 arr2 的 元 素 
< np.less(arrl,arr2) 判断 arrl 的 元 素 是 否 小 于 arr2 的 元 素 

< 一 np.less equallarrl,ar2) 判断 arrl 的 元 素 是 否 小 于 等 于 arr2 的 元 素 
一 np.equal(arrl,arr2) 判断 arrl 的 元 素 是 否 等 于 arr2 的 元 素 

{= np.not equal(arrl,arr2) 判断 arrl 的 元 素 是 否 不 等 于 arr2 的 元 素 








运用 比较 运算 符 可 以 返回 bool 类 型 的 值 ， 即 True 和 False。 在 笔者 看 来 ， 有 两 种 情况 会 普 Y 
使 用 到 比较 运算 符 , 一 个 是 从 数组 中 查询 满足 条 件 的 元 素 , 另 一 个 是 根据 判断 的 结果 执行 不 同 的 操 





作 。 例 如 : 
# 取 子 集 


# 从 arr7 中 取出 arr7 大 于 arr8 的 所 有 元 素 


print (arr7) 
print (' 满 足 条 件 的 二 维 数组 元 素 获取 : 
# 从 arr9 中 取出 大 于 10 的 元 素 


\n',arr7 [arr7>arr8]) 


arr9 = np.array([3,10,23,7,16,9,17,22,4,8,15]) 


print (' 满 足 条 件 的 一 维 数组 元 素 获取 : 


# 判断 操作 


\n',arr9[arr9>10]) 


# 将 arr7 中 大 于 7 的 元 素 改 成 5， 其 余 的 不 变 

print (' 二 维 数组 的 条 件 操作 : \n', np.where (arr7>7,5,arr7)) 
# 将 arr9 中 大 于 10 的 元 素 改 为 1， 否 则 改 为 0 

Print (' 一 维 数组 的 条 件 操作 : \n', np.where (arr9>10,1,0)) 


out: 

[[1 2 10] 

[10 8 3] 

[7 6 5]] 

满足 条 件 的 二 维 数组 元 素 获取 : 
[la0 10 9 7 6 5] 
满足 条 件 的 一 维 数组 元 素 获取 : 
E23 6 7 25] 

二 维 数组 的 条 件 操作 : 

Wi 2 5 

[5S 5 3 

[7 € 5]] 

一 维 数组 的 条 件 操作 : 

LOuO TO OYTO 


运用 bool 索引 ， 将 满足 条 件 的 元 素 从 数组 中 挑选 出 来 ， 但 不 管 是 一 维 数组 还 是 多 维 数组 ， 通 
过 bool 索引 返回 的 都 是 一 维 数组 ; np.where 函数 与 Excel 中 的 让 函数 一 样 ， 就 是 根据 判定 条 件 执 














行 不 同 的 分 支 语句 。 
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4.2.3 ”广播 运算 


前 面 所 介绍 的 各 种 数学 运算 符 都 是 基于 相同 形状 的 数组 ， 当 数组 形状 不 同时 ， 也 能 够 进行 数 
学 运算 的 功能 称 为 数组 的 广播 。 但 是 数组 的 广播 功能 是 有 规则 的 ， 如 果 不 满 足 这 些 规 则 ,运算 时 就 
会 出 错 。 数 组 的 广播 规则 是 : 


e@ 各 输入 数组 的 维度 可 以 不 相等 ， 但 必须 确保 从 右 到 左 的 对 应 维度 值 相等 。 
@ ”如 果 对 应 维度 值 不 相等 ， 就 必须 保证 其 中 一 个 为 1。 
e@ 各 输入 数组 都 向 其 shape 最 长 的 数组 看 齐 ，shape 中 不 足 的 部 分 都 通过 在 前 面 加 1 补 齐 。 


从 字面 上 理解 这 三 条 规则 可 能 比较 困难 ， 下 面 通过 几 个 例子 对 每 条 规则 加 以 说 明 ， 希 望 能 够 
帮助 读者 理解 它们 的 含义 : 
# 各 输入 数组 维度 一 致 ， 对 应 维度 值 相等 


arrl0 = np.arange(12) .reshape(3,4) 

arrll = np.arange(101,113).reshape (3,4) 

print ('3X4 的 二 维 矩 阵 运算 : \n'varr10 + arrl1) 

# 各 输入 数组 维度 不 一 致 ， 对 应 维度 值 相等 

arrl2 = np.arange(60) .reshape(5,4,3) 

arrl0 = np.arange(12) .reshape(4,3) 

print (" 维 数 不 一 致 ， 但 末尾 的 维度 值 一 致 : \n'varr12 + arr10) 
# 各 输入 数组 维度 不 一 致 ， 对 应 维度 值 不 相等 ， 但 其 中 有 一 个 为 1 
arrl2 = np.arange(60) .reshape(5,4,3) 

arrl3 = np.arange(4).reshape (4,1) 

Print (' 维 数 不 一 致 ， 维 度 值 也 不 一 致 ， 但 维度 值 至 少 一 个 为 1: \n',arril2 + arrl3) 
# 加 1 补 齐 

arrl4 = np.array([5,15,25]) 

print ('arr14 的 维度 自动 补 齐 为 (1,3): \n'varr10 + arr14) 





out: 

3X4 的 二 维 矩阵 运算 : 
[[101 103 105 107] 
[109 111 113 115] 
[117 119 121 123]] 


维 数 不 一 致 ， 但 末尾 的 维度 值 一 致 : 


上 EC 0 2 4 IIL2. 24161 

[6 8 10] [18 20 22] 

[12 14 16] [24 26 28] 

[18 20 22]] [30 32 34]] 

[[24 26 28] [[36 38 40] [[48 50 52] 
[30 32 34] [42 44 46] [54 56 58] 
[36 38 40] [48 50 52] [60 62 64] 
[42 44 46]] [54 56 58]] [66 68 70]]] 


维 数 不 一 致 ， 维 度 值 也 不 一 致 ， 但 维度 值 至 少 一 个 为 1: 


LLLO 02] [[12 13 14] 

[4 5 6] [16 17 18] 

LB 9 20] [20 21 22] 

[12 13 14]] [24 25 26]] 

[[24 25 26] [[36 37 38]  [[48 49 50] 


[28 29 30] [40 41 42] [52%535.54] 
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[32 33 34] [44 45 46] [56 57 58] 
[36 37 38]] [48 49 50]] [60 61 62]]] 


arr14 的 维度 自动 补 齐 为 (1, 3): 

| | 

[8 19 30] 

Et 220333 

Ei4 25 36]] 

如 上 结果 所 示 ， 第 一 个 打印 结果 其 实 并 没有 用 到 数组 的 广播 ， 因 为 这 两 个 数组 具有 同形 状 ; 
第 二 个 打印 结果 是 三 维 数组 和 两 维 数组 的 和 ,虽然 维 数 不 一 样 , 但 末尾 的 两 个 维度 值 是 一 样 的 ， 都 
是 4 和 3， 最 终 得 到 5X4X3 的 数组 ; 第 三 个 打印 中 的 两 个 数组 维 数 和 维度 值 均 不 一 样 ， 但 末尾 的 
两 个 维度 值 中 必须 含 一 个 1， 且 另 一 个 必须 相同 ， 都 为 4， 相 加 之 后 得 到 5X4X3 的 数组 ;第 四 个 
打印 结果 反映 的 是 4X3 的 二 维 数组 和 (3,) 的 一 维 数组 的 和 ， 两 个 数组 维度 不 一 致 ， 为 了 能 够 运算 ， 
广播 功能 会 自动 将 (3,) 的 一 维 数组 补 齐 为 (1,3) 的 二 维 数组 ， 进 而 得 到 4X3 的 数组 。 通 过 对 上 面 例子 
的 解释 ， 希望 读者 能 够 掌握 数组 广播 功能 的 操作 规则 ， 以 防 数组 运算 时 发 生 错误 


4.3 ”常用 的 数学 和 统计 函数 








numpy 模块 的 核心 就 是 基于 数组 的 运算 ， 相 比 于 列表 或 其 他 数据 结构 ， 数 组 的 运算 效率 是 最 
高 的 。 在 统计 分 析 和 挖掘 过 程 中 ， 经 常会 使 用 到 numpy 模块 的 函数 ， 接 下 来 将 常用 的 数学 函数 和 
统计 函数 汇总 到 表 4-2 中 ， 以 便 读者 查询 和 使 用 。 


表 4-2 数学 函数 与 统计 函数 





























分 类 ”| 卫 数 
nppi 
npe 
np.fabs(an) 
np.ceil(ar) 
np.round(arr) 对 各 元 素 四 舍 五 入 

数 np.fmod(arrl,arr2) 计算 arrlarr2 的 余数 

学 np.modftarr) 返回 数组 元 素 的 小 数 部 分 和 整数 部 分 

函 np.sqrt(arr) 计算 各 元 素 的 算术 平方 根 

数 np.square(arr) 计算 各 元 素 的 平方 值 
np.exp(arr) 计算 以 e 为 底 的 指数 
np.log2(ar) 计算 以 2 为 底 各 元 素 的 对 数 
np.log10(arr) 计算 以 10 为 底 各 元 素 的 对 数 
np.log(arr) 计算 以 e 为 底 各 元 素 的 对 数 
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( 续 表 ) 

分 类 函数 函数 说 明 
np.min(arr,axis) 按照 轴 的 方向 计算 最 小 值 
np.max(arraxis) 按照 轴 的 方向 计算 最 大 值 
np.mean(arr,axis) 按照 轴 的 方向 计算 均值 
np.median(arr,axis) 按照 轴 的 方向 计算 中 位 数 
np.sum(arr,axis) 按照 轴 的 方向 计算 和 

统 np.std(arr,axis) 按照 轴 的 方向 计算 标准 差 

计 np.var(arr,axis) 按照 轴 的 方向 计算 方差 

函 np.cumsum(arr,axis) 按照 轴 的 方向 计算 累计 和 

数 np.cumprod(arr,axis) 按照 轴 的 方向 计算 累计 乘积 
np.argmin(arr,axis) 按照 轴 的 方向 返回 最 小 值 所 在 的 位 置 
np.argmax(arr,axis) 按照 轴 的 方向 返回 最 大 值 所 在 的 位 置 





np.corrcoeftarr) 计算 皮尔 逊 相关 系数 
np.cov(arr) 计算 协 方差 矩阵 


根据 上 面 的 表格 ， 需 要 对 统计 函数 重点 介绍 ， 这 些 统计 函数 都 有 axis 参数 ， 该 参数 的 目的 就 
是 在 统计 数组 元 素 时 需要 按照 不 同 的 轴 方 向 计算 ， 如 果 axis=1， 则 表示 按 水 平方 向 计算 统计 值 ， 即 
计算 每 一 行 的 统计 值 ， 如 果 axis=0， 则 表示 按 垂直 方向 计算 统计 值 ， 即 计算 每 一 列 的 统计 值 。 为 了 
简单 起 见 ， 这 里 做 一 组 对 比 测 试 ， 以 便 读者 明白 轴 的 方向 具体 指 什么 : 

Print (arr4) 


Print (" 垂 直方 向 计算 数组 的 和 :， \n',np.sum(arr4,axis = 0)) 
print (" 水 平方 向 计算 数组 的 和 : \n'vnp.sum(arr4，axis = 1)) 














out: 

[[ 1 1000 3000] 

Lae E20 200 

[ 3 30 300]] 

垂直 方向 计算 数组 的 和 : 

[6 1050 3500] 

水 平方 向 计算 数组 的 和 : 

[4001 222 333] 

如 上 结果 所 示 ， 垂 直方 向 就 是 对 数组 中 的 每 一 列 计算 总 和 ， 而 水 平方 向 就 是 对 数组 中 的 每 一 
行 计 算 总 和 。 同 理 ， 如 果 读者 想 小 试 牛刀 的 话 ， 就 以 4.1.3 节 中 读 取 的 学 生 考试 成 绩 为 例 ， 计 算 每 
一 个 学 生 (水 平方 向 ) 的 总 成 绩 和 每 一 门 科目 垂直 方向 的 平均 分 。 


4.4 线性 代数 的 相关 计算 


数据 挖掘 的 理论 背后 几乎 离 不 开 有 关 线 性 代数 的 计算 问题 ， 如 竹 阵 乘法 、 算 阵 分 解 、 行 列 式 
求解 等 。 本 章 介绍 的 numpy 模块 同样 可 以 解决 各 种 线性 代数 相关 的 计算 ， 只 不 过 需要 调用 Numpy 
的 子 模块 linalg( 线 性 代数 的 缩写 ) ， 该 模块 几乎 提供 了 线性 代数 所 需 的 所 有 功能 。 


68 | 从 零 开 始 学 Python 数据 分 析 与 挖掘 





表 4-3 给 出 了 一 些 numpy 模块 中 有 关 线 性 代数 的 重要 函数 ， 以 便 读者 快速 查阅 和 掌握 函数 用 法 。 


表 4-3 numpy 模块 中 有 关 线 性 代数 的 重要 函数 








函数 说 明 函数 说 明 
np.zeros 生成 零 矩 阵 np.ones 生成 所 有 元 素 为 ! 的 矩阵 
np.eye 和 转 置 











生成 单位 矩阵 矩阵 
np.dot 计算 两 个 数组 的 点 积 np.inner 计算 
np.diag 和 矩阵 主 对 角 线 与 一 维 数组 间 矩阵 
的 转换 


两 个 数组 的 内 积 
主 对 角 线 元 素 的 和 


和 矩阵 特征 根 与 特征 向 量 





np.linalg.det 计算 矩阵 行列 式 计算 

np.linalg.eigvals 计算 方 阵 特征 根 np.linalg.inv 计算 

np.linalg.pinv 计算 方 阵 的 Moore-Penrose 伪 计算 
逆 


方 阵 的 逆 











Ax=b 的 线性 方程 组 的 解 
np.linalg.lstsq 计算 Ax=b 的 最 小 二 乘 解 np.linalg.qr 计算 QR 分 解 
np.linalg.svd 计算 奇异 值 分 解 np.linalg norm 计算 向 量 或 矩阵 的 范 数 


4.4.1 和 矩阵 乘法 


# 一 维 数组 的 点 积 

vector dot = np.dot (np.array([1,2,3]), np.array([4,5,6])) 
print (' 一 维 数组 的 点 积 : \n', vector_dot) 

# 二 维 数组 的 乘法 

print (' 两 个 二 维 数组 : ') 

print (arr10) 

Print (arr11) 

arr2d = np.dot (arr10,arrll) 

Print (' 二 维 数组 的 乘法 : \n',arr2d) 


[6 7 8] 
[ 9 10 11]] 

[[101 102 103 104] 

[105 106 107 108] 

[109 110 111 112]] 

二 维 数组 的 乘法 : 

[[ 323 326 329 332] 
[1268 1280 1292 1304] 
[2213 2234 2255 2276] 
[3158 3188 3218 3248]] 


点 积 函 数 dot， 使 用 在 两 个 一 维 数组 中 ， 实 际 上 是 计算 两 个 向 量 的 乘积 ， 返 回 一 个 标量 ; 使 用 


在 两 个 二 维 数组 中 , 即 矩 阵 的 乘法 , 矩阵 乘法 要 求 第 一 个 矩阵 的 列 数 等 








会 报错 。 


第 二 个 矩阵 的 行 数 ， 否 则 
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4.4.2 diag 函数 的 使 用 


arr15 = np.arange(16) .reshape(4,-1) 
print ('4X4 的 矩阵 ，\n'varr15) 

print (" 取 出 矩阵 的 主 对 角 线 元 素 : \n', np.diag(arr15)) 

print (' 由 一 维 数组 构造 的 方 阵 : \n',np.diag (np.array([5,15,25]))) 


out: 

4X4 的 矩阵 : 

| | 
Ea 5 6 

[8 9 10 11] 

[12 13 14 15]] 
取出 矩阵 的 主 对 角 线 元 素 : 
LO 55210735] 

由 一 维 数组 构造 的 方 阵 ; 
ELO5 
05 

EO 0 251] 


如 上 结果 所 示 ， 如 果 给 diag 函数 传 入 的 是 二 维 数组 ， 则 返回 由 主 对 角 元 素 构成 的 一 维 数组 ; 


如 果 向 diag 函数 传 入 一 个 一 维 数组 ， 则 返回 方 阵 ， 且 方 阵 的 主 对 角 线 就 是 一 维 数组 的 值 ， 方 阵 的 





非 


E 对 角 元 素 均 为 0。 


4.4.3 ”特征 根 与 特征 向 量 


我 们 知道 ， 假 设 A 为 n 阶 方 阵 ， 如 果 存在 数 A 和 非 零 向 量 e， 使 得 Ax = Xx (x 地 0) ， 则 称 ) 为 


A 的 特征 根 ，x 为 特征 根 和 对 应 的 特征 向 量 。 如 果 需 要 计算 方 阵 的 特征 根 和 特征 向 量 ， 可 以 使 用 子 
模块 linalg 中 的 eig 函数 : 


# 计算 方 阵 的 特征 向 量 和 特征 根 

arr16 = np.array ([[1,2,5], [3,6,8], [4,7,9]]) 
print ("计算 3X3 方 阵 的 特征 根 和 特征 向 量 : \n', arr16) 
print (' 求 解 结果 为 : \n', np.1linalg.eig(arr16)) 


out: 

计算 3X3 方 阵 的 特征 根 和 特征 向 量 ; 
[[1 2 5] 

[3 6 8] 

[4 7 9]] 

求解 结果 为 : 

(array([ 16.75112093, -1.12317544, 0.37205451]), 
array ([[-0.30758888, -0.90292521, 0.76324346], 
[-0.62178217, -0.09138877, -0.62723398], 

[-0.72026108, 0.41996923, 0.15503853]])) 


如 上 结果 所 示 ， 特 征 根 和 特征 向 量 的 结果 存储 在 元 组 中 ， 元 组 的 第 一 个 元 素 就 是 特征 根 ， 每 


个 特征 根 对 应 的 特征 向 量 存储 在 元 组 的 第 二 个 元 素 中 。 
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4.4.4 多 元 线性 回归 模型 的 解 


多 元 线性 回归 模型 一 般 用 来 预测 连续 的 因 变量 ， 如 根据 天 气 状 况 预 测 游客 数量 、 根 据 网 站 的 
活动 页 面 预测 支付 转化 率 、 根 据 城市 人 口 的 收入 、 教 育 水 平 、 寿 命 等 预测 犯罪 率 等 。 该 模型 可 以 写 
成 Y = XB +e， 其 中 了 为 因 变 量 ,， XX 为 自 变量 ，e 为 误差 项 。 要 想 根 据 已 知 的 闭 来 预测 了 的 话 ， 必 
须 得 知道 偏 回归 系数 B 的 值 。 对 于 熟悉 多 元 线性 回归 模型 的 读者 来 说 ， 一 定 知 道 偏 回归 系数 的 求解 
方程 ， 即 = (X'X)-1X Y)。 如 果 读 者 并 不 是 很 熟悉 多 元 线性 回归 模型 的 相关 知识 ， 可 以 查看 第 7 
章 的 内 容 。 

# 计算 偏 回归 系数 
和 


+6,3,4], [1,5,7,8]]) 
Y = np.array([3.2,3.8,3.7,4.3,4.4,5.2,6.7,4.8,4.2,5.1]) 








XxX trans X inverse = np.linalg.inv (np.dot(np.transpose (X) ,X) ) 
beta = np.dot (np.dot(X trans X inverse,np.transpose(X)),Y) 


Print (' 偏 回归 系数 为 :\n' , beta) 


out: 

偏 回 归 系 数 为 : 

[ 1.78052227 0.24720413 0.15841148 0.13339845] 

如 上 所 示 ，X 数组 中 ， 第 一 列 全 都 是 1， 代 表 了 这 是 线性 回归 模型 中 的 截 距 项 ， 剩 下 的 三 列 代 
表 自 变量 ， 根 据 B 的 求解 公式 ， 得 到 模型 的 偏 回归 系数 ， 从 而 可 以 将 多 元 线性 回归 模型 表示 为 
Y= 1.781 + 0.247xi + 0.158xz + 0.133xa 。 


4.4.5 多 元 一 次 方程 组 的 求解 


在 中 学 的 时 候 就 学 过 有 关 多 元 一 次 方程 组 的 知识 , 例如 《 九 章 算术 》 中 有 一 题 是 这 样 描述 的 : 
今 有 上 禾 三 秉 ， 中 禾 二 秉 ， 下 禾 一 秉 ， 实 三 十 九 斗 ; 上 禾 二 秉 ， 中 禾 三 秉 ,下 禾 一 秉 , 实 三 十 四 斗 ; 
上 禾 一 秉 ， 中 禾 二 秉 ， 下 禾 三 秉 ， 实 二 十 六 斗 ; 问 上 、 中 、 下 禾 实 秉 各 几何 ? 解答 这 个 问题 就 需要 
应 用 三 元 一 次 方程 组 ， 该 方程 组 可 以 表示 为 : 

3x+2y+z= 39 
2x+3y+z=34 
XxX+2y+3z=26 

在 线性 代数 中 ， 这 个 方程 组 就 可 以 表示 成 4X = b，A4 代表 等 号 左边 数字 构成 的 矩阵 ，X 代表 
三 个 未 知 数 ，b 代表 等 号 右边 数字 构成 的 向 量 。 如 需求 解 未 知 数 X， 可 以 直接 使 用 linalg 子 模 块 中 
的 solve 函数 ， 有 具体 代码 如 下 : 

# 多 元 线性 方程 组 

A = np.array([[3,2,1], [2,3,1], [1,2,3]]) 

b = np.array([39,34,26]) 


X = np.linalg.solve (A,b) 
print (' 三 元 一 次 方程 组 的 解 : \n',X) 





out: 
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三 元 一 次 方程 组 的 解 : 
(R25 


如 上 结果 所 示 ， 得 到 方程 组 x、y、z 的 解 分 别 是 9.25、4.25 和 2.75。 


4.4.6” 范 数 的 计算 


范 数 常 常用 来 度量 某 个 向 量 空 间 (或 矩阵 中 的 每 个 向 量 的 长 度 或 大 小 ， 它 具有 三 方面 的 约 
束 条 件 ， 分 别 是 非 负 性 、 齐 次 性 和 三 角 不 等 性 。 最 常用 的 范 数 就 是 p 范 数 ， 其 公式 可 以 表示 成 
lixlly = (lzxalz + |xzl? 十 … 二 |xn|z)MP。 关 于 范 数 的 计算 ， 可 以 使 用 linalg 子 模块 中 的 norm 函数 ， 
举例 如 下 : 

# 范 数 的 计算 

arrl7 = np.array ([1,3,5,7,9,10,-12]) 

# 一 范 数 

resl = np.linalg.norm(arr17, ord = 1) 

print (' 向 量 的 一 范 数 : \n', res1) 

# 二 范 数 

res2 = np.linalg.norm(arr17, ord = 2) 

print (' 向 量 的 二 范 数 : \n', res2) 

# 无 穷 范 数 


res3 = np.linalg.norm(arr17, ord = np.inf) 


print (" 向 量 的 无 穷 范 数 ，\n' res3) 


out: 


向 量 的 一 范 数 : 


20.2237484162 
向 量 的 无 穷 范 数 : 
Ee 


如 上 结果 所 示 ， 向 量 的 无 穷 范 数 是 指 从 向 量 中 挑选 出 绝对 值 最 大 的 元 素 。 
4.5” 伪 随 机 数 的 生成 


虽然 在 Python 内 置 的 random 模块 中 可 以 生成 随机 数 , 但 是 每 次 只 能 随机 生成 一 个 数字 , 而 且 
随机 数 的 种 类 也 不 够 丰富 。 如 果 读 者 想 一 次 生成 多 个 随机 数 ， 或 者 在 内 置 的 random 模块 中 无 法 找 
到 所 需 的 分 布 函数 ， 作 者 推荐 使 用 numpy 模块 中 的 子 模块 random。 关 于 各 种 常见 的 随机 数 生成 函 
数 ， 可 见 表 4-4， 以 供 读者 查阅 。 


表 4-4 常见 随机 数 生成 函数 
函数 说 明 








seed(n) 设置 随机 种 子 
beta(a, b, size=None) 生成 贝塔 分 布 随 机 数 
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( 续 表 ) 
函数 说 明 
chisquare(df size=None) 生成 卡 方 分 布 随机 数 
choice(a, size=None, replace=True, p=None) 从 a 中 有 放 回 地 随机 挑选 指定 数量 的 样本 
exponential(scale=1.0, size=None) 生成 指数 分 布 随机 数 
f(dfnum, dfden, size=None) 生成 F 分 布 随 机 数 
gamma(shape, scale=1.0, size=None) 生成 伽 马 分 布 随机 数 
geometric(p, size=None) 生成 几何 分 布 随 机 数 
hypergeometric(ngood, nbad, nsample, size=None) 生成 超 几 何 分 布 随机 数 
laplace(loc=0.0, scale=1.0, size=None) 生成 拉 普 拉 斯 分 布 随机 数 








logistic(loc=0.0, scale=1.0, size=None) 生成 Logistic 分 布 随 机 数 
生成 对 数 正 态 分 布 随机 数 








lognormal(mean=0.0, sigma=1.0, size=None) 








negative_binomial(n, p, size=None) 生成 负 二 项 分 布 随机 数 

multinomial(n, pvals, size=None) 
multivariate_normal(mean, covL size]) 
normal(loc=0.0, scale=1.0, size=None) 
pareto(a, size=None) 
poisson(lam=1.0, size=None) 
rand(d0, d1, dn) 
randn(d0, d1. .dn) 
randint(low, high=None, size=None, dtype=) 
random_sample(size=None) 
standard t(df, size-None) 
uniform(low=0.0, high=1.0, size=None) 
wald(mean, scale, size=None) 
weibull(a, size-None) 


读者 可 能 熟悉 上 面 的 部 分 分 布 函数 ， 但 并 不 一 定 了 解 它 们 的 概率 密度 曲线 。 为 了 直观 展现 分 
布 函数 的 概率 密度 曲线 , 这 里 以 连续 数值 的 正 态 分 布 和 指数 分 布 为 例 进行 介绍 。 如 果 读 者 想 绘制 更 
多 其 他 连续 变量 的 分 布 概率 密度 曲线 ， 可 以 对 如 下 代码 稍 做 修改 。 

import seaborn as sns 

import matplotlib.pyplot as pit 

from scipy import stats 


# 生成 各 种 正 态 分 布 随机 数 
np.random. seed (1234) 


rnl = np.random.normal (loc = 0, scale = 1, size = 1000) 
rn2 = np.random.normal (loc = 0, scale = 2, size = 1000) 
rn3 = np.random.normal (loc = 2, scale = 3, size = 1000) 
rn4 = np.random.normal (loc = 5, scale = 3, size = 1000) 


# 绘图 
plt.style.use('ggplot') 
sns.distplot (rnl, hist = False, kde = False, fit = stats.norm, 
fit kws = {'color':'black','label':'u=0,s=1','"'linestyle':'-'}) 
sns.distplot (rn2, hist = False, kde = False, fit = stats.norm, 
fit_kws = {'color':'red','label':'u=0,s=2','linestyle':'--"'}) 
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sns.distplot(rn3，hist = False, kde = False, fit = stats.norm, 

fit kws = {'color':'blue','label':'"u=2,s=3','linestyle':':'}) 
sns.distplot (rn4, hist = False, kde = False, fit = stats.norm, 

fit kws = {'color':'purple','label':'u=5,s=3','linestyle':'-.'}) 
# 呈现 图 例 
plt.legend() 
# 呈现 图 形 
plt.show() 


见 图 4-1。 





025 


020 





10 


图 4-1 各 形态 的 正 态 分 布 密度 曲线 


如 图 4-1 所 示 ， 呈 现 的 是 不 同 均值 和 标准 差 下 的 正 态 分 布 概率 密度 曲线 。 当 均值 相同 时 ， 标 准 
差 越 大 ， 密 度 曲 线 越 矮 胖 ， 当 标准 差 相 同时 ， 均 值 越 大 ， 密 度 曲 线 越 往 右 移 。 


# 生成 各 种 指数 分 布 随机 数 
np.random. seed (1234) 
rel = np.random.exponential(scale = 0.5, size = 1000) 
re2 = np.random.exponential(scale = 1, size = 1000) 
re3 = np.random.exponential(scale = 1.5, size = 1000) 
# 绘图 
sns.distplot (rel, hist = False, kde = False, fit = stats.expon, 
fit kws = {'color':'black','label':'lambda=0.5','linestyle': 
sns.distplot (re2, hist = False, kde = False, fit = stats.expon, 
fit kws = {'color':'red','label':'lambda=1','linestyle':'--'}) 
sns.distplot (re3, hist = False, kde = False, fit = stats.expon, 
fit kws = {'color':'blue','label':'lambda=1.5','linestyle':':'}) 





eh 


# 呈现 图 例 
plt.legend() 
# 呈现 图 形 
plt.show!() 


见 图 4-2。 
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一 lambda=0.5 
- lambda=1 
lambda=1.5 





图 42 各 形态 的 指数 分 布 密度 曲线 
图 4-2 展现 的 是 指数 分 布 的 概率 密度 曲线 ， 通 过 图 形 可 知 ， 指 数 分 布 的 概率 密度 曲线 呈现 在 
y=0 的 右 半 边 ， 而 且 随 着 lambda 参数 的 增加 ， 概 率 密 度 曲 线 表现 得 越 矮 ， 同 时 右边 的 “尾巴 ”会 
更 长 而 厚 。 





4.6 ”本 章 小 结 


本 章 介 绍 了 有 关 数 值 计算 的 numpy 模块 ， 包 括 数组 的 创建 、 基 本 操作 、 数 学 运算 、 常 用 的 数 
学 和 统计 函数 、 线 性 代数 以 及 随机 数 的 生成 。 通 过 本 章 内 容 的 学 习 ， 和 希望 能 够 为 读者 在 之 后 的 数据 
分 析 和 挖掘 方面 的 学 习 打 下 基础 。 

下 面 对 本 章 中 涉及 的 Python 函数 进行 汇总 ， 主 要 是 正文 中 没有 写 入 表格 的 函数 ， 以 便 读者 查 
询 和 记忆 。 








Python 模块 Python 函数 或 方法 函数 说 明 
arange 类 似 于 Python 内 建 函数 range 





构造 数组 索引 的 函数 
genfromtxt 读 取 文 本 文件 数据 的 函数 
shape 返回 数组 形状 的 “方法 ” 
numpy ndim 返回 数组 维 数 的 “方法 ” 
size 返回 数组 元 素 个 数 的 “方法 ” 
dtype 返回 数组 数据 类 型 的 “方法 ” 
重 塑 数组 形状 的 “方法 ” 
同上 
flatten 将 多 维 数组 降 为 一 维 数组 的 “方法 ” 
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( 续 表 ) 

Python 模块 Python 函数 或 方法 函数 说 明 
numpy ravel 同上 

Vstack、row_stack 数组 的 垂直 堆 释 函数 

hstack、column stack 数组 的 水 平 合并 函数 

Where 类 似 于 Excel 的 让 函数 
seabom distplot 绘制 概率 密度 曲线 的 函数 

legend 呈现 图 例 的 函数 

matplotlib 


show 


呈现 图 形 的 函数 








Python 数据 处 理工 具 一 一 Pandas 


上 一 章 向 读者 介绍 了 有 关 数 值 计算 的 numpy 模块 , 通过 numpy 模块 可 以 非常 方便 地 调用 各 种 
常用 的 数学 和 统计 函数 。 本 章 将 介绍 强大 的 数据 处 理 模块 Pandas， 该 模块 可 以 帮助 数据 分 析 师 轻 
松 地 解决 数据 的 预 处 理 问题 , 如 数据 类 型 的 转换 、 缺 失 值 的 处 理 、 描 述 性 统计 分 析 、 数 据 的 汇总 等 。 
通过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 如 下 知识 点 ， 进 而 在 数据 处 理 过 程 中 做 到 游 思 有余 ， 为 
后 续 的 数据 分 析 或 机 器 学 习 做 准备 : 
两 种 重要 的 数据 结构 ， 即 序列 和 数据 框 ; 
如 何 读 取 外 部 数据 ( 如 文本 文件 、 电 子 表格 或 数据 库 中 的 数据 ); 
数据 类 型 转换 及 描述 性 统计 分 析 ; 
字符 型 与 日 期 型 数据 的 处 理 ; 
常见 的 数据 清洗 方法 ; 
如 何 应 用 iloc、loc、 与 ix 完成 数据 子 集 的 生成 ; 
实现 Excel 中 的 透视 表 操 作 ; 
多 表 之 间 的 合并 与 连接 ; 
数据 集 的 分 组 聚合 操作 。 
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5.1 序列 与 数据 框 的 构造 


Pandas 模块 的 核心 操作 对 象 就 是 序列 (Series) 和 数据 框 (DataFrame) 。 序 列 可 以 理解 为 数 
据 集中 的 一 个 字段 ， 数 据 框 是 指 含有 至 少 两 个 字段 (或 序列 ) 的 数据 集 。 首 先 需 要 向 读者 说 明 哪 些 
方式 可 以 构造 序列 和 数据 框 ， 之 后 才能 实现 基于 序列 和 数据 框 的 处 理 和 操作 。 
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5.1.1 构造 序列 


构造 一 个 序列 可 以 使 用 如 下 方式 实现 : 

过 同 质 的 列表 或 元 组 构建 。 

过 字典 构建 。 

通过 Numpy 中 的 一 维 数组 构建 。 

通过 数据 框 DataFrame 中 的 某 一 列 构建 。 


为 了 使 读者 能 够 理解 上 面 所 提 到 的 四 种 构造 方法 ， 这 里 通过 具体 的 代码 案例 加 以 解释 和 说 明 : 


# 导入 模块 
import pandas as pd 
import numpy as np 


通 
通 


# 构造 序列 

gdpl = pd.Series([2.8,3.01,8.99,8.59,5.18]) 

gdp2 = pd.Series ({ ' 北 京 ':2.8, ' 上 海 ' :3.01, ' 广 东 ' :8.99, ' 江 苏 ' :8 .59, ' 浙 江 ' :5.18}) 
gdp3 = pd.Series (np.array((2.8,3.01,8.99,8.59,5.18))) 

print (gdp1) 

Print (gdp2) 


4 5.18 
dtype: float64 
上 海 3.01 
北京 2.80 
广东 8.99 
江苏 8.59 
浙江 5.18 
dtype: float64 


由 于 数据 框 的 知识 点 还 没有 介绍 到 ， 上 面 的 代码 展示 的 是 通过 Series 函数 将 列表 、 字 典 和 一 维 数 
组 转换 为 序列 的 过 程 。 不 管 是 列表 、 元 组 还 是 一 维 数组 ， 构 造 的 序列 结果 都 是 第 一 个 打印 的 样式 。 该 
样式 会 产生 两 列 ， 第 一 列 属于 序列 的 行 索引 〔 可 以 理解 为 行 号 ) ， 自 动 从 0 开始 ， 第 二 列 才 是 序列 的 
实际 值 。 通 过 字典 构造 的 序列 就 是 第 二 个 打印 样式 ， 仍 然 包 含 两 列 ， 所 不 同 的 是 第 一 列 不 再 是 行 号 ， 
而 是 具体 的 行 名 称 〈label) ， 对 应 到 字典 中 的 键 ， 第 二 列 是 序列 的 实际 值 ， 对 应 到 字典 中 的 值 。 

序列 与 一 维 数组 有 极 高 的 相似 性 ， 获 取 一 维 数组 元 素 的 所 有 索引 方法 都 可 以 应 用 在 序列 上 ， 
而 且 数 组 的 数学 和 统计 函数 也 同样 可 以 应 用 到 序列 对 象 上 , 不 同 的 是 , 序列 会 有 更 多 的 其 他 处 理 方 
法 。 下 面 通过 几 个 具体 的 例子 来 加 以 测试 

# 取出 gdpl 中 的 第 一 、 第 四 和 第 五 个 元 素 

Print (" 行 号 风格 的 序列 : \n', gdp1[[0,3,4]]) 

# 取出 gdp2 中 的 第 一 、 第 四 和 第 五 个 元 素 

print (' 行 名 称 风格 的 序列 : \n' ,gdp2[[0,3,4]]) 


# 取出 gdp2 中 上 海 、 江 苏 和 浙江 的 GDP 值 
print (' 行 名 称 风格 的 序列 : \n' ,gdp2[[' 上海 ', ' 江 苏 ',' 浙 江 ' ] ]) 
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# 数学 函数 -- 取 对 数 

print (' 通 过 numpy 函数 : \n' ,np.1log (gdp1)) 
# 平均 gdp 

print (' 通 过 numpy 函数 : \n', np.mean(gdp1)) 
print (' 通 过 序列 的 方法 : \n', gdp1 .mean () ) 


out: 

行 号 风格 的 序列 
0 2.80 

3 8.59 

4 5.18 
dtype: float64 
行 名 称 风格 的 序列 : 
上 海 。 3.01 
江苏 ”8.59 
浙江 5.18 
dtype: float64 
行 名 称 风格 的 序列 : 
上 海 3.01 
江苏 ”8.59 
浙江 5.18 
dtype: float64 
通过 numpy 函数 : 
0 1.029619 
1 1.101940 
2 2.196113 
3 2.150599 
4 1.644805 
dtype: float64 


通过 numpy 函数 : 

5.714 

通过 序列 的 方法 : 

5.714 

针对 上 面 的 代码 需要 说 明 几 点 ， 如 果 序列 是 行 名 称 风 格 ， 既 可 以 使 用 位 置 〈 行 号 ) 索引 ， 又 


可 以 使 用 标签 〈 行 名 称 ) 索引; 如 果 需 要 对 序列 进行 数学 函数 的 运算 ， 一 般 首 选 numpy 模块 ， 因 
为 Pandas 模块 在 这 方面 比较 缺乏 ， 如 果 是 对 序列 做 统计 运算 ， 既 可 以 使 用 numpy 模块 中 的 函数 ， 
也 可 以 使 用 序列 的 “方法 ”， 作 者 一 般 首 选 序列 的 “方法 ”， 因 为 序列 的 “方法 ”更 加 丰富 ， 如 计 
算 序列 的 偏 度 、 峰 度 等 ， 而 Numpy 是 没有 这 样 的 函数 的 。 


5.1.2 ”构造 数据 框 


前 面 提 到 ， 数 据 框 实 质 上 就 是 一 个 数据 集 ， 数 据 集 的 行 代表 每 一 条 观测 ， 数 据 集 的 列 则 代表 各 个 
变量 。 在 一 个 数据 框 中 可 以 存放 不 同 数据 类 型 的 序列 ， 如 整数 型 、 浮 点 型 、 字 符 型 和 日 期 时 间 型 ， 而 
数组 和 序列 则 没有 这 样 的 优势 ， 因 为 它们 只 能 存放 同 质数 据 。 构 造 一 个 数据 库 可 以 应 用 如 下 方式 : 
通过 嵌 套 的 列表 或 元 组 构造 。 
通过 字典 构造 。 
通过 二 维 数组 构造 。 
通过 外 部 数据 的 读 取 构 造 。 


第 5 章 Python 数 据 处 理工 具 一 一 Pandas | 79 





接 下 来 通过 几 个 简单 的 例子 来 说 明 数据 框 的 构造 : 


# 构造 数据 框 

df1 = pd.DataFrame ([[' 张 三 ', 23, ' 男 '], [' 李 四 ' ,27,' 女 '] ,[' 王 二 ' ,26, ' 女 ']]) 

df2 = pd.DataFrame ({' 姓 名 ' : [' 张 三 ',' 李 四 ',' 王 二 ' ],' 年 龄 ' : [23,27,26],' 性 别 ' : [' 男 ', ' 女 ', ' 女 ']}) 
df3 = pd.DataFrame (np.array([[' 张 三 ',23, ' 男 '], [' 李 四 ' ,27,' 女 '],[' 王 二 ' ,26, ' 女 ']])) 

print (" 插 套 列表 构造 数据 框 : \n', df1) 

Print (" 字 典 构造 数据 框 : \n'vdf2) 

print (' 二 维 数组 构造 数据 框 : \n'vdf3) 


out: 

菊 套 列表 构造 数据 框 : 
a 

0 张 三 23 男 

1 李 四 27 女 

Wk: = 

字典 构造 数据 框 : 
姓名 年 龄 性 别 

, 量 三 二 二 二 

1 李 四 27 女 

2 

二 维 数组 构造 数据 框 : 
OL 

0 张 = 23 男 

1 李 四 27 女 

CA = 


构造 数据 框 需要 使 用 到 Pandas 模块 中 的 DataFrame 函数 ， 如 果 通 过 嵌 套 列表 或 元 组 构造 数据 
框 ， 则 需要 将 数据 框 中 的 每 一 行 观测 作为 嵌 套 列表 或 元 组 的 元 素 ， 如 果 通 过 二 维 数 组 构造 数据 杠 ， 
则 需要 将 数据 框 的 每 一 行 写 入 到 数组 的 行 中 ; 如 果 通 过 字典 构造 数据 框 , 则 字典 的 键 构成 数据 框 的 
变量 名 ,对 应 的 值 构成 数据 框 的 观测 。 尽管 上 面 的 代码 都 可 以 构造 数据 框 ,但 是 将 嵌 套 列表 、 元 组 
或 二 维 数组 转换 为 数据 框 时 ， 数 据 框 是 没有 具体 的 变量 名 的 ， 只 有 从 0 到 N 的 列 号 。 所 以 ， 如 果 
需要 手工 构造 数据 框 的 话 ， 一 般 首选 字典 方法 。 剩 下 一 种 构造 数据 框 的 方法 并 没有 在 代码 中 体现 ， 
那 就 是 外 部 数据 的 读 取 ， 这 个 内 容 将 在 下 一 节 中 重点 介绍 。 


5.2 ”外 部 数据 的 读 取 


很 显然 ， 每 次 通过 手工 构造 数据 框 是 不 现实 的 ， 在 实际 工作 中 ， 更 多 的 情况 则 是 通过 Python 
读 取 外 部 数据 集 ， 这 些 数 据 集 可 能 包含 在 本 地 的 文本 文件 (如 csv、txt 等 ) 、 电 子 表格 Excel 和 数 
据 库 中 (如 MySQL、SQL Server 等 ) 。 本 节 内 容 就 是 重点 介绍 如 何 基于 Pandas 模块 实现 文本 文件 、 
电子 表格 和 数据 库 数 据 的 读 取 。 


5.2.1 文本 文件 的 读 取 


如 果 读 者 需要 使 用 Python 读 取 txt 或 csv 格式 中 的 数据 ， 可 以 使 用 Pandas 模块 中 的 read_table 
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函数 或 read_csv 函数 。 这 里 的 “或 ”并 不 是 指 每 个 函数 只 能 读 取 一 种 格式 的 数据 ， 而 是 这 两 种 函 
数 均 可 以 读 取 文 本 文件 的 数据 。 由 于 这 两 个 函数 在 功能 和 参数 使 用 上 类 似 , 因此 这 里 仅 以 read_table 
函数 为 例 ， 介 绍 该 函数 的 用 法 和 几 个 重要 参数 的 含义 。 
pd.read table (filepath or buffer, sep='\t', header='infer', names=None, index col=None, 
usecols=None,dtype=None, converters=None, skiprows=None, 


skipfooter=None, nrows=None, na values=None, skip blank lines=True, 
Parse dates=False, thousands=None, comment=None, encoding=None) 


filepath_or_buffer: 指定 txt 文件 或 csv 文件 所 在 的 具体 路 径 。 

sep: 指定 原 数据 集中 各 字段 之 间 的 分 隔 符 ， 默 认为 Tab 制 表 符 。 

header: 是 否 需要 将 原 数据 集中 的 第 一 行 作 为 表 头 ， 默 认 将 第 一 行 用 作 字 段 名 称 。 

names: 如 果 原 数据 集中 没有 字段 , 可 以 通过 该 参数 在 数据 读 取 时 给 数据 框 添加 具体 的 表 头 。 
index_col: 指定 原 数 据 集中 的 某 些 列 作为 数据 框 的 行 索引 (标签 )。 

usecols: 指定 需要 读 取 原 数据 集中 的 哪些 变量 名 。 

dtype: 读 取 数 据 时 ， 可 以 为 原 数据 集 的 每 个 字段 设置 不 同 的 数据 类 型 。 

converters: 通过 字典 格式 ， 为 数据 集中 的 某 些 字段 设置 转换 函数 。 

Skiprows: 数据 读 取 时 ， 指 定 需要 跳 过 原 数 据 集 开 头 的 行 数 。 

skipfooter: 数据 读 取 时 ， 指 定 需要 跳 过 原 数据 集 末 尾 的 行 数 。 

nrows: 指定 读 取 数 据 的 行 数 。 

na_values: 指定 原 数据 集中 哪些 特征 的 值 作为 缺失 值 。 

skip_blank_lines: 读 取 数 据 时 是 否 需要 跳 过 原 数据 集中 的 空白 行 ， 默 认为 True。 

parse_dates: 如 果 参 数值 为 True， 则 尝试 解析 数据 框 的 行 索引 ; 如 果 参 数 为 列表 ， 则 尝试 解 
析 对 应 的 日 期 列 ; 如 果 参 数 为 谋 套 列表 ， 则 将 某 些 列 合并 为 日 期 列 ; 如 果 参 数 为 字典 ， 则 解 
析 对 应 的 列 ( 字典 中 的 值 )， 并 生成 新 的 字段 名 (字典 中 的 键 )。 

e@ thousands: 指定 原始 数据 集中 的 千 分 位 符 。 

e@ ”comment: 指定 注释 符 ， 在 读 取 数据 时 ， 如 果 碰 到 行 首 指 定 的 注释 符 ， 则 跳 过 改行 。 
eencoding: 如 果 文 件 中 含有 中 文 ， 有 时 需要 指定 字符 编码 。 


为 了 说 明 read_table 函数 中 一 些 参数 所 起 到 的 作用 , 这 里 构造 一 个 稍微 复杂 点 的 数据 集 用 于 测 
试 ， 数 据 存放 在 txt 中 ， 有 具体 如 图 5-1 所 示 。 
司 data_test01.txt - 记事 本 
| 文人 纺 绢 日， 检 KC(O) 可 看 V) 帮助 (H) 


源 ， 某 公司 记 . 
有 











1992, 10, 7, 女 ,前 , 6&500 
1985, 6, 15, 锅 人 新 全 18&000 
该 数据 集 仅 用 作 参 考 ! 


Po] by ! 
入 字 20i8 和 4. 





5-1 待 读 取 的 txt 数据 
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图 5-1 所 呈现 的 txt 格式 数据 集 存 在 一 些 常见 的 问题 ， 具 体 如 下 : 

@ 数据 集 并 不 是 从 第 一 行 开始 ， 前 面 几 行 实际 上 是 数据 集 的 来 源 说 明 ， 读 取 数据 时 需要 注意 什 
么 问题 。 

数据 集 的 末尾 3 行 仍然 不 是 需要 读 入 的 数据 ， 如 何 避 免 后 3 行 数据 的 读 入 。 

中 间 部 分 的 数据 ， 第 四 行 前 加 了 # 号 ， 表 示 不 需要 读 取 该 行 ， 该 如 何 处 理 。 
数据 集中 的 收入 一 列 ， 千 分 位 符 是 &， 如 何 将 该 字段 读 入 为 正常 的 数值 型 数据 。 

如 果 需 要 将 year、month 和 day 三 个 字段 解析 为 新 的 birthday 字段 ， 该 如 何 做 到 。 

数据 集中 含有 中 文 ， 一 般 在 读 取 含 中 文 的 文本 文件 时 都 会 出 现 编码 错误 ， 该 如 何 解决 。 


针对 这 样 一 个 复杂 的 数据 集 ， 该 如 何 通 过 read_table 函数 将 数据 正常 读 入 到 Python 内 存 中 ， 
并 构成 一 个 合格 的 数据 框 呢 ? 这 里 给 出 具体 的 数据 读 入 代码 ,希望 读者 能 够 理解 其 中 每 一 个 参数 所 
起 到 的 作用 : 


# 读 取 文 本 文件 中 的 数据 

user income = pd.read table(r'C:\Users\Administrator\Desktop\data test01.txt'，sep = ',', 
parse dates={'birthday': [0,1,2]},skiprows=2, skipfooter=3, 
comment='#', encoding='utf8', thousands="'&') 


user_income 

见 表 5-1。 

表 5-1 ”txt 数据 的 读 取 结 果 

[birthday gender | occupation |income 
ol 1990-03-07 | 男 销售 经 理 6000 
1|1989-08-10| 女 。 | 化 执 岳 。 |8500 
2| 1992-10-07| 女 前 端 设 计 6500 
3|1985-06-15| 男 数据 分 析 师 | 18000 





























读 取 的 数据 如 表 5-1 所 示 。 代 码 说 明 : 由 于 read_table 函数 在 读 取 数 据 时 ， 默 认 将 字段 分 陋 符 
sep 设置 为 Tab 制 表 符 ， 而 原始 数据 集 是 用 去 号 分 割 每 一 列 ， 所 以 需要 改变 sep 参数 ，parse_dates 
参数 通过 字典 实现 前 三 列 的 日 期 解析 , 并 合并 为 新 字段 birthday; skiprows 和 skipfooter 参数 分 别 实 
现 原 数据 集 开 头 几 行 和 末尾 几 行 数据 的 跳 过 ; 由 于 数据 部 分 的 第 四 行 前 面 加 了 # 号 ， 因 此 通过 
comment 参数 指定 跳 过 的 特殊 行 ， 这 里 仅 改变 字符 编码 参数 encoding 是 不 够 的 ， 还 需要 将 原始 的 
txt 文件 另存 为 UTF-8 格式 ; 最 后 ， 对 于 收入 一 列 ， 由 于 千 分 位 符 为 &， 因 此 为 了 保证 数值 型 数据 
的 正常 读 入 ， 需 要 设置 thousands 参数 为 &。 





5.2.2 ”电子 表格 的 读 取 


还 有 一 种 常见 的 本 地 数据 格式 ， 那 就 是 Excel 电子 表格 ， 如 果 读 者 在 学 习 或 工作 中 需要 使 用 
Python 分 析 某 个 Excel 表格 数据 ， 该 如 何 完成 第 一 步 的 数据 读 取 工 作 呢 ? 本 节 将 运用 Pandas 模块 
中 的 read_excel 函数 ， 教 读者 完美 地 读 取 电子 表格 数据 。 首 先 ， 介 绍 该 函数 的 用 法 及 几 个 重要 参数 
的 含义 : 
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pd.read excel (io, sheetname=0, header=0, skiprows=None, skip footer=0, 


index col=None, names=None, parse cols=None, parse dates=False, 
na values=None, thousands=None, convert float=True) 


@ io: 指定 电子 表格 的 具体 路 径 。 


sheetname: 指定 需要 读 取 电子 表格 中 的 第 几 个 Sheet, 既 可 以 传递 整数 也 可 以 传递 具体 的 Sheet 
名 称 。 

header: 是 否 需要 将 数据 集 的 第 一 行 用 作 表 头 ， 默 认为 是 需要 的 。 

skiprows: 读 取 数 据 时 ， 指 定 跳 过 的 开始 行 数 。 

skip_footer: 读 取 数 据 时 ， 指 定 跳 过 的 末尾 行 数 。 

index_col: 指定 哪些 列 用 作 数 据 框 的 行 索引 (标签 )。 

names: 如 果 原 数据 集中 没有 字段 , 可 以 通过 该 参数 在 数据 读 取 时 给 数据 框 添加 具体 的 表 头 。 
parse_cols: 指定 需要 解析 的 字段 。 

parse_dates: 如 果 参 数值 为 True， 则 尝试 解析 数据 框 的 行 索引 ; 如 果 和 参数 为 列表 ， 则 尝试 解 
析 对 应 的 日 期 列 ; 如 果 参 数 为 谋 套 列表 ， 则 将 菜 些 列 合并 为 日 期 列 ; 如 果 参 数 为 字典 ， 则 解 
析 对 应 的 列 ( 字典 中 的 值 )， 并 生成 新 的 字段 名 (字典 中 的 键 )。 

na_values: 指定 原始 数据 中 哪些 特殊 值 代 表 了 缺失 值 。 

thousands: 指定 原始 数据 集中 的 千 分 位 符 。 

convert_float: 默认 将 所 有 的 数值 型 字段 转换 为 浮 点 型 字段 。 

converters: 通过 字典 的 形式 ， 指 定 某 些 列 需要 转换 的 形式 。 


如 图 5-2 所 示 ， 该 数据 集 反 映 的 是 儿童 类 服装 的 产品 信息 。 在 读 取 数 据 时 需要 注意 两 点 : 一 点 
是 该 表 没 有 表 头 , 如 何 读数 据 的 同时 就 设置 好 具体 的 表 头 ; 另 一 点 是 数据 集 的 第 一 列 实际 上 是 字符 
型 的 字段 ， 如 何 避 免 数据 读 入 时 自动 变 成 数值 型 字段 。 


| B 加 D 

1 ,00101 儿童 裤 黑色 109 
2_'01123 儿童 上 衣 红色 229 
3 '01010 ”儿童 鞋 蓝 色 199 
4 I00100 ”儿童 内 衣 灰色 159 


5-2 待 读 取 的 Excel 数据 


child cloth = pd.read excel(io = r'C:\Users\Administrator\Desktop\data test02.xlsx', 


header = None, converters = {0:str} 
names = ['Prod Id','Prod Name','Prod Color', 'Prod Price']) 


child_cloth 


见 表 5-2。 
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表 5-2 “Excel 数据 的 读 取 结 果 





Prod_ld | Prod_Name | Prod_Color | Prod_Price 

















这 里 需要 重点 说 明 的 是 converters 参数 ， 通 过 该 参数 可 以 指定 某 些 变量 需要 转换 的 函数 。 很 显 
然 ， 原 始 数据 集中 的 商品 ID 是 字符 型 的 ， 如 果 不 将 该 参数 设置 为 {0:str}， 读 入 的 数据 与 原始 的 数 
据 集 就 不 一 致 了 。 


5.2.3 ”数据 库 数 据 的 读 取 


绝 大 多 数 公 司 都 会 选择 将 数据 存 入 数据 库 中 ， 因 为 数据 库 既 可 以 存放 海量 数据 ， 又 可 以 非常 
便捷 地 实现 数据 的 查询 。 本 节 将 以 MySQL 和 SQL Server 为 例 ， 教 会 读者 如 何 使 用 Pandas 模块 和 
对 应 的 数据 库 模 块 〈 分 别 是 pymysql 模块 和 pymssql 模块 ， 如 果 读 者 的 Python 没有 安装 这 两 个 模 
块 ， 需 要 通过 cmd 命令 输入 pip install pymysql 和 pip install pysmsql) 实现 数据 的 连接 与 读 取 。 

首先 需要 介绍 pymysql 模块 和 pymssql 模块 中 的 连接 函数 connect， 虽 然 两 个 模块 中 的 连接 函 
数 名 称 一 致 ， 但 函数 的 参数 并 不 完全 相同 ， 所 以 需要 分 别 介 绍 函 数 用 法 和 几 个 重要 参数 的 含义 : 

(1) pymysql 中 的 connect 





pymysql.connect (host=None, user=None, password='', database=None, port=0, charset="'') 


host。 指定 需要 访问 的 MySQL 服务 器 。 

User: 指定 访问 MySQL 数据 库 的 用 户 名 。 

password: 指定 访问 MySQL 数据 库 的 密码 。 

database: 指定 访问 MySQL 数据 库 的 具体 库 名 。 

port: 指定 访问 MySQL 数据 库 的 端口 号 。 

charset: 指定 读 取 MySQL 数据 库 的 字符 集 ， 如 果 数据 库 表 中 含有 中 文 ， 一 般 可 以 尝试 将 该 
参数 设置 为 “utf8” 或 “gbk”。 


(2) pymssql 中 的 connect 


pymssql.connect (server = None, user = None, password = None, database = None, charset 
= None) 

从 两 个 模块 的 connect 函数 看 ， 两 者 几乎 没有 差异 ， 而 且 参 数 含义 也 是 一 致 的 ， 所 不 同 的 是 
pymysql 模块 中 connect 函数 的 host 参数 表示 需要 访问 的 服务 器 ， 而 pymssql 函数 中 对 应 的 参数 是 
server。 为 了 简单 起 见 ， 以 本 地 电脑 中 的 MySQL 和 SQL Server 为 例 ， 演 示 一 遍 如 何 使 用 Python 连 
接 数 据 库 的 操作 (如 果 读 者 需要 在 自己 电脑 上 操作 , 必须 确保 你 的 电脑 中 已 经 安装 了 这 两 种 数据 库 )。 
图 5-3、 图 5-4 所 示 分 别 是 MySQL 和 SQL Server 数据 库 中 的 数据 表 。 
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s ven ] EE RE 
田 加 数据 库 关系 图 | bype size region floow direction tot_amt price_unit buit_date 
日 国 表 1 ] 达 听 4772 浦东 低 区 /6 层 。 朝 南 。 500 。 104777 。 1992 年 奸 
田 国 系统 表 liz 碧 云 新 天 地 (一 期 ) 耳闻 10893 浦东 低 区 /6 层 ” 朝 南 735 67474 ”2002 年 建 
田 世 dbo.sec buildingd | 3 。 博 山 小 区 二 I 果 4379 浦东 中 区 /6 层 朝 南 。 260 ”59374 “1988 年 建 
田 筷 视图 4 “金桥 新 村 四 街坊 ( 博 兴 路 9386 弄 ) 。 1 室 1 厅 41.66 ”浦东 ”中 区 /6 层 。 朝 南 北 280 67210 1997 年 建 
田 国 同义词 |s 博 山 小 区 储 听 3977 浦东 高 区 /6 层 朝 南 。 235 ”59089 。 1987 年 建 
田 国 可 骗 垦 性 | 5。 浴 坊 三 村 储 听 3484 浦东 ”中 区 /5 绒 260 74626 。 1983 年 奸 


5-4 待 读 取 的 SQL Server 数据 
# 读 入 MySQL 数据 库 数据 


# 导入 第 三 方 模块 
import pymysql 


# 连接 MysQL 数据 库 

conn = pymysql.connect (host='localhost', user='root', password='test', 
database='test', port=3306, charset='utf8') 

# 读 取 数 据 

user = pd.read sql('select * from topy', conn) 

# 关闭 连接 

conn.close() 

# 数据 输出 


User 
见 表 5-3。 


表 5-3 ”MySQL 数据 的 读 取 结果 


id name |age 





ol1 | 张 三 |23 
李 四 |27 


2 
la |E= 24 
4 
5 














李 武 |33 
Tom |27 





1 
2 
3 
4 

















如 上 结果 所 示 , 将 数据 库 中 的 数据 读 入 到 了 Python 中 。 由 于 MySQL 的 原 数据 集中 含有 中 文 ， 
为 了 避免 乱码 的 现象 , 将 connect 函数 中 的 chartset 参数 设置 为 utf8。 读 取 数据 时 ， 需 要 用 到 Pandas 
模块 中 的 read_sql 函数 ， 该 函数 至 少 传 入 两 个 参数 ， 一 个 是 读 取 数据 的 查询 语句 〈sql) ， 另 一 个 
是 连接 桥梁 (con) ; 在 读 取 完 数据 之 后 ， 请 务必 关闭 连接 conn， 因 为 它 会 一 直 占 用 电脑 的 资源 ， 
影响 电脑 的 运行 效率 。 

# 导入 第 三 方 模块 

import pymssql 
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# 连接 SQL Server 数据 库 
connect = pymssql.connect (server = 'localhost', user = '', password = "" 
database = 'train', charset = "utf8') 
# 读 取 数据 
data = pd.read sql("select * from sec buildings where direction = ' 朝 南 '"，con=connect) 
# 关闭 连接 


connect .close () 
























































# 数据 输出 
data.head() 
见 表 5-4。 
表 5-4 SQL Server 数据 的 读 取 结果 
name type |size region |floow | direction |tot_amt | price_unit| built_date 
0 | 梅 园 六 街坊 2 享 0 厅 | 47.720001 | 满 东 ”| 低 区 /6 层 | 朝 南 500.0 ”|104777.0 | 1992 年 建 
1| 政 云 新 天 地 ( 一 期 ) |3 训 2 厅 | 108.930000 | 浦东 “| 低 区 /6 层 | 朝 南 735.0 |67474.0 ”|2002 年 建 
2| 博 山 小 区 1 室 1 厅 |43.790001 | 浦东 ”| 中 区 /6 层 | 朝 南 260.0 |59374.0 ”|1988 年 建 
3| 博 山 小 区 1 室 0 厅 |39.770000 | 浦东 “| 高 区 /6 层 | 朝 南 235.0 |59089.0 |1987 年 建 
4| 羽 北 小 区 2 识 2 厅 | 69.879997 | 浦东 “| 低 区 /6 层 | 朝 南 560.0 |80137.0 “| 1994 年 建 
如 上 所 示 ， 连 接 SQL Server 的 代码 与 MySQL 的 代码 基本 相同 ， 由 于 访问 SQL Server 不 需要 
填 入 用 户 名 和 密码 ， 因 此 user 参数 和 password 参数 需要 设置 为 空 字符 ， 在 读 取 数据 时 ， 可 以 写 入 


更 加 灵活 的 SQL 代码 ， 如 上 代码 中 的 SQL 语句 附加 了 数据 的 筛选 功能 ， 即 所 有 朝 南 的 二 手 房 ; 同 
样 ， 数 据 导入 后 ， 仍 然 需 要 关闭 连接 。 


5.3 ”数据 类 型 转换 及 描述 统计 


也 许 读者 通过 5.2 节 的 学 习 掌握 了 如 何 将 常用 的 外 部 数据 读 入 到 Python 中 的 技能 ， 但 是 你 可 
能 并 不 了 解 该 数据 ， 所 以 需要 进一步 学 习 Pandas 模块 中 的 其 他 知识 点 。 本 节 内 容 主 要 介绍 如 何 了 
解数 据 ， 例 如 读 入 数据 的 规模 如 何 、 各 个 变量 都 属于 什么 数据 类 型 、 一 些 重要 的 统计 指标 对 应 的 值 
是 多 少 、 离 散 变量 各 唯一 值 的 频次 该 如 何 统计 等 。 下 面 以 某 平台 二 手 车 信息 为 例 ， 

# 数据 读 取 

sec cars = pd.read table(r'C:\Users\Administrator\Desktop\sec cars.csv', sep = ',') 


# 预览 数据 的 前 五 行 


sec_cars.head () 


见 表 5-5。 
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表 5-5 二 手 车 数据 的 前 5 行 预览 




















Brand | Name Boarding_time | Km(W) | Discharge | Sec_price| New_price 
0| 众 泰 | 众泰 T7600 2016 款 1.5T 手动 豪华 型 2016 年 5 月 3.96 国 4 68 942 万 
1| 众 泰 “| 众泰 2700 2016 款 1.8T 手动 典雅 型 2017 年 8 月 0.08 国 4, 国 5 88 11.92 万 
2| 众 泰 ”| 大 迈 X5 2015 寺 1.5T 手动 豪华 型 2016 年 9 月 0.80 “| 国 4 58 8.56 万 
3| 众 泰 | 众泰 T7600 2017 款 1.5T 手动 精英 贺岁 版 |2017 年 3 月 0.30 国 5 62 8.66 万 
4| 众 泰 | 众泰 7T600 2016 款 1.5T 手动 旗舰 型 2016 年 2 月 170 | 国 4 70 11.59 万 
































表 5-5 所 示 就 是 读 入 的 二 手 车 信息 ， 如 果 读者 只 需要 预览 数据 的 几 行 信息 ， 可 以 使 用 head 方 
法 和 tail 方法 。 如 上 代码 中 ，head 方法 可 以 返回 数据 集 的 开头 5 行 ， 如 果 读 者 需要 查看 数据 集 的 末 
尾 5 行 , 可 以 使 用 tail 方 法 。 进一步 ， 如果 还 想 知道 数据 集 有 多 少 观测 和 多 少 变 量 ， 以 及 每 个 变量 
都 是 什么 数据 类 型 ， 可 以 按 如 下 代码 得 知 : 

# 查看 数据 的 行列 数 

print (' 数 据 集 的 行列 数 ; \n', sec_cars. shape) 


# 查看 数据 集 每 个 变量 的 数据 类 型 
print (' 各 变量 的 数据 类 型 : \n' ,sec_cars.dtypes) 


out: 
数据 集 的 行列 数 : 

(10984, 7) 
各 变量 的 数据 类 型 : 
Brand object 
Name object 
Boarding time object 
Km (W) float64 
Discharge object 
Sec price float64 
New price object 


dtype: object 


结果 如 上 ， 该 数据 集 一 共 包 含 了 10 948 条 记录 和 7 个 变量 ， 除 二 手 车 价格 Sec_price 和 行驶 
里 程 数 Km(W) 为 浮 点 型 数据 之 外 ， 其 他 变量 均 为 字符 型 变量 。 但 是 ， 从 表 5-5 来 看 ， 二 手 车 的 上 
牌 时 间 Boarding_time 应 该 为 日 期 型 ， 新 车 价格 New_price 应 该 为 浮 点 型 ， 为 了 后 面 的 数据 分 析 ， 
需要 对 这 两 个 变量 进行 类 型 的 转换 ， 具 体操 作 如 下 : 

# 修改 二 手 车 上 牌 时 间 的 数据 类 型 

sec cars.Boarding time = pd.to datetime(sec cars.Boarding time, format = '%Y 年 sm 月 ') 

# 修改 二 手 车 新 车 价格 的 数据 类 型 

sec cars.New price = sec cars.New price.str[:-1] .astype('float') 


# 重新 查看 各 变量 数据 类 型 


sec cars.dtypes 


out: 

Brand object 

Name object 

Boarding time datetime64[ns] 
Km (W) float64 

Discharge object 


Sec price float64 
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New price float64 

dtype: object 

如 上 结果 所 示 ， 经 过 两 行 代 码 的 处 理 ， 上 牌 时 间 Boarding time 更 改 为 了 日 期 型 数据 ， 新 车 价 
格 New_price 更 改 为 了 浮 点 型 数据 .需要 说 明 的 是 , Pandas 模块 中 的 to_datetime 函数 可 以 通过 format 
参数 灵活 地 将 各 种 格式 的 字符 型 日 期 转换 成 真正 的 日 期 数据 ， 由 于 二 手 车 新 车 价格 含有 “万 ” 字 ， 
因此 不 能 直接 转换 数据 类 型 , 为 达到 目的 , 需要 三 步 走 , 首先 通过 str 方法 将 该 字段 转换 成 字符 串 ， 
然后 通过 切片 手段 ， 将 “万 ” 字 剔 除 ， 最 后 运用 astype 方法 ， 实 现 数据 类 型 的 转换 。 

接 下 来 ， 需 要 对 数据 做 到 心中 有 数 ， 即 通过 基本 的 统计 量 〈 如 最 小 值 、 均 值 、 中 位 数 、 最 大 
值 等 ) 描述 出 数据 的 特征 。 关 于 数据 的 描述 性 分 析 可 以 使 用 describe 方法 : 

# 数据 的 描述 性 统计 


sec_cars.describe() 





见 表 5-6。 
表 5-6 数值 型 数据 的 统计 描述 


Km(W) Sec_price 
count| 10984.000000| 10984.000000 











mean |6.266357 25.652192 





std |3.480678 52.770268 





min |0.020000 0.650000 





25% |4.000000 5.200000 





50% |6.000000 10.200000 





75% |8.200000 23.800000 
max |34.600000 808.000000 


如 上 结果 所 示 ， 通过 describe 方法 ， 直 接 运 算 了 数据 框 中 所 有 数值 型 变量 的 统计 值 ,包括 非 缺 
失 个 数 、 平 均值 、 标 准 差 、 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 和 最 大 值 。 以 二 手 车 的 售 价 
Sec_price 为 例 ， 平 均 价 格 为 25.7 万 (很 明显 会 受到 极端 值 的 影响 ) 、 中 位 数 价格 为 10.2 万 〈 即 一 
半 的 二 手 车 价格 不 超过 10.2 万 ) 、 最 高 售 价 为 808 万 、 最 低 售 价 为 0.65 万 、 绝 大 多 数 二 手 车 价格 
不 超过 23.8 万 《上 四 分 位 数 75% 对 应 的 值 。 

以 上 都 是 有 关 数 据 的 统计 描述 ， 但 并 不 能 清晰 地 知道 数据 的 形状 分 布 ， 如 数据 是 否 有 偏 以 及 
是 否 属于 “尖峰 厚 尾 ”的 特征 , 为 了 一 次 性 统计 数值 型 变量 的 偏 度 和 峰 度 , 读者 可 以 参考 如 下 代码 : 

# 挑 出 所 有 数值 型 变量 

num variables = sec cars.columns[sec cars.dtypes !='object'][1:] 

# 自 定义 函数 ， 计 算 偏 度 和 峰 度 


def skew kurt (x) : 
skewness = x.skew() 























kurtsis = x.kurt() 

# 返回 偏 度 值 和 峰 度 值 

return pd.Series([skewness, kurtsis], index = ['Skew','Kurt']) 
# 运用 apply 方法 
sec_cars[num variables].apply(func = skew kurt, axis = 0) 


见 表 5-7。 
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表 5-7 数值 型 数据 的 偏 度 和 上 峰 度 


Km(W) |Sec_price| New_price 








Skew |0.829915|6.313738 | 4.996912 
Kurt |2.406258|55.381915|33.519911 














如 上 结果 所 示 正 是 每 个 数值 型 变量 的 偏 度 和 峰 度 ， 这 三 个 变量 都 属于 右 偏 〈 因 为 偏 度 值 均 大 
于 0) ， 而 且 三 个 变量 也 是 尖峰 的 (因为 峰 度 值 也 都 大 于 0) 。 代 码 说 明 : columns 方法 用 于 返回 
数据 集 的 所 有 变量 名 , 通过 布尔 索引 和 切片 方法 获得 所 有 的 数值 型 变量 ; 在 自 定义 函数 中 , 运用 到 
了 计算 偏 度 的 skew 方法 和 计算 峰 度 的 kurt 方法 ， 然 后 将 计算 结果 组 合 到 序列 中 ， 最 后 使 用 apply 
方法 ， 该 方法 的 目的 就 是 对 指定 轴 (axis=0， 即 垂直 方向 的 各 列 ) 进行 统计 运算 〈 和 运算 函数 即 自 定 
义 函 数 ) 。 

以 上 的 统计 分 析 全 都 是 针对 数值 型 变量 的 , 对 于 数据 框 中 的 字符 型 变量 (如 二 手 车 品牌 Brand、 
排放 量 Discharge 等 ) 该 如 何 做 统计 描述 呢 ? 仍然 可 以 使 用 describe 方法 ， 所 不 同 的 是 ， 需 要 设置 
该 方法 中 的 include 参数 ， 具 体 代码 如 下 : 

# 离散 型 变量 的 统计 描述 


sec_ cars.describe(include = ['object']) 


见 表 5-8。 








表 5-8 离散 型 数据 的 统计 描述 























| | Brand | Name | Discharge 
[count [10984 |10984 |10984 

| unique | 104 |4374 [33 

[top ”| 别克 | 经 拱 全 顺 2010 款 柴油 短 轴 多 功能 中 顶 6 座 | 国 4 

[rreq |1346 |126 |4262 





如 上 结果 包含 离散 变量 的 四 个 统计 值 ， 分 别 是 非 缺 失 观 测 数 、 唯 一 水 平 数 、 频 次 最 高 的 离散 
值 和 具体 的 频次 。 以 二 手 车 品牌 为 例 ， 一 共有 10 984 辆 二 手 车 ， 包 含 104 种 品牌 ， 其 中 别克 品牌 
最 多 ， 高 达 1346 辆 。 需 要 注意 的 是 ， 如 果 对 离散 型 变量 作 统 计 分 析 ， 需 要 将 “object” 以 列表 的 
形式 传递 给 include 参数 。 

对 于 离散 型 变量 ， 运 用 describe 方法 只 能 得 知 哪个 离散 水 平 属于 “明星 ” 值 。 如 果 读 者 需要 统 
计 的 是 各 个 离散 值 的 频次 ， 甚 至 是 对 应 的 频率 ， 该 如 何 计 算 呢 ? 这 里 直接 给 出 如 下 代码 〈 以 二 手 车 
品 的 标准 排 量 Discharge 为 例 ) : 

# 离散 变量 频次 统计 


Freq = sec cars.Discharge.value counts() 

Freq ratio = Freq/sec cars.shape[0] 

Freq df = pd.DataFrame ({'Freq':Freq, 'Freq ratio':Freq ratio}) 
Freq_df .head() 


见 表 5-9。 
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表 5-9 变量 值 的 频次 统计 





| Freq | Freq_ratio 
国 4 4262|0.388019 
欧 4 1848|0.168245 





欧 5 1131 | 0.102968 








国 4, 国 5| 843 | 0.076748 
国 3 772 |0.070284 











如 上 结果 所 示 ， 构 成 的 数据 框 包含 两 列 ， 分 别 是 二 手 车 各 种 标准 排 量 对 应 的 频次 和 频率 ， 数 
据 框 的 行 索 引 〈 标 签 》 就 是 二 手 车 不 同 的 标准 排 量 。 如 果 读 者 需要 把 行 标签 设置 为 数据 框 中 的 列 ， 
可 以 使 用 reset_index 方法 ， 具 体操 作 如 下 : 


# 将 行 索引 重 设 为 变量 

Freq df.reset index(inplace = True) 
Freq_df .head() 

见 表 5-10。 


表 5-10 ”将 行 索引 转 为 字段 





















index |Freq |Freq_ratio 
lo 4262|0 388019 
1 1848|0.168245 
| ?| 区 5 1131 | 0.102968 
|3| 国 4 ms 843 |0.076748 
4| 国 3 772 |0.070284 




















reset_index 方法 的 使 用 还 是 比较 频繁 的 , 它 可 以 非常 方便 地 将 行 标签 转换 为 数据 框 的 变量 。 在 
如 上 代码 中 ， 将 reset_index 方法 中 的 inplace 参数 设置 为 True， 表 示 直 接 对 原始 数据 集 进 行 操作 ， 
影响 到 原 数 据 集 的 变化 ， 和 否则 返回 的 只 是 变化 预览 ， 并 不 会 改变 原 数据 集 。 


5.4 ”字符 与 日 期 数据 的 处 理 


在 本 书 第 3 章 的 Python 基础 知识 讲解 中 就 已 经 介绍 到 有 关 字 符 串 的 处 理 和 正则 表达 式 ， 但 那 
都 是 基于 单个 字符 串 或 字符 串 列 表 的 操作 ,在 本 节 中 将 会 向 读者 介绍 如 何 基 于 数据 框 操作 字符 型 变 
量 , 希望 对 读者 在 后 期 的 学 习 和 工作 中 处 理 字符 串 时 有 所 帮助 。 同 时， 本 节 也 会 介绍 有 关 日 期 型 数 
据 的 处 理 ， 比 方 说 ， 如 何 从 日 期 型 变量 中 取出 年 份 、 月份、 星期 几 等 ， 如 何 计算 两 个 日 期 间 的 时 间 

为 了 简单 起 见 ， 这 里 就 以 自己 手工 编 的 数据 为 例 ， 展 示 如 何 通 过 Pandas 模块 中 的 知识 点 完成 
字符 串 和 日 期 数据 的 处 理 。 表 5-11 所 示 就 是 即将 处 理 的 数据 。 








ex 


90 
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表 5-11 待 处 理 的 数据 表 





B C D 正 F C 也 





1989/8/10 2012/9/8| 13611011234|zhaoyi@qq. con : : 电子 商务 , 爱好 : 运动 } 
1990/10/2 2014/3/6) 13500012234|wanger@163. con : 汽 s 
1987/3/12 20097178| 13515273330|zhangsan@gq. con : 学 ， 爱 好 : 打 往 球 } 








1991/8/16| 2014/6/4 13923673388|1isi@anail. con a 议 计 学 ， 爱 好 : 唱歌 } 
1992/5/24| 2014/8/10| 17823117890|1iuvu@qq. con 3 术 ， 爱好 : } 








1986/12/10| 2010/3/10| 13712345612|leiliu@126. com 





1993/4/10| 2015/8/1 13178734511 |iiagi@136. con 
1988/7/19| 2014/10/12 17822335317|vuba@gg. con 


针对 如 上 数据 ， 读 者 可 以 在 不 看 下 方 代码 的 情况 下 尝试 着 回答 这 些 关 于 字符 型 及 日 期 型 的 问 





























如 何 更 改 出 生日 期 birthday 和 手机 号 tel 两 个 字段 的 数据 类 型 。 

如 何 根据 出 生日 期 birthday 和 开始 工作 日 期 start_work 两 个 字段 新 增 年 龄 和 工龄 两 个 字段 。 
如 何 将 手机 号 tel 的 中 间 四 位 隐藏 起 来 。 

如 何 根据 邮箱 信息 新 增 邮 箱 域名 字段 。 

如 何 基于 other 字段 取出 每 个 人 员 的 专业 信息 。 


# 数据 读 入 

df = pd.read excel(r'C:\Users\Administrator\Desktop\data test03.xlsx') 
# 各 变量 数据 类 型 

df.dtypes 

# 将 birthday 变量 转换 为 日 期 型 

df.birthday = pd.to datetime (df.birthday, format = '%Y/%m/%$d') 

# 将 手机 号 转换 为 字符 串 

df.tel = df.tel.astype('str') 

# 新 增 年 龄 和 工龄 两 列 

df['age'] = pd.datetime.today() .year - df.birthday.dt.year 
df['workage'] = pd.datetime.today().year - df.start work.dt.year 

# 将 手机 号 中 间 四 位 隐藏 起 来 

df.tel = df.tel.apply (func = lambda x : x.replace(x[3:7], '****')) 

# 取出 邮箱 的 域名 

df['email domain'] = df.email.apply(func = lambda x : x.split('@')[1]) 
# 取出 人 员 的 专业 信息 

df['profession'] = df.other.str.findall(' 专 业 : (.*?), ') 

# 去 除 birthday、start_work 和 other 变量 
df.drop(['birthday','start work','other'], axis = 1, inplace = True) 
df .head() 


见 表 5-12。 
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表 5-12 ”问题 的 解答 结果 


nane 


object 
























































gender object 
birthday object 
start work datetine64[ns] 
incone Iint' 
tel int64 
email object 
other object 
dtype: object 
name | gender |income | tel email age| workage | email_domain | profession 
0| 赵 一 | 男 15000 |136"""1234|zhaoyi@qqcom |29 |6 qq.com [电子 商务 ] 
1| 王 | 男 12500 |135”"2234| wanger@163com |28 |4 163.com [ 汽 修 ] 
2| 张 三 | 女 18500 |135"""3330|zhangsan@qqcom|31 |9 qqcom 合 池 | 
3| 李 四 | 女 13000 |139""*3388|iisi@gmailcom |27 |4 gmailcom “|| 统计 学 ] 
4| 刘 五 | 女 8500 |178™"7890|liuwu@qqcom |26 |4 qq.com 区 和 相 
国 = 之 -面相 i y 二 -而 
如 上 结果 所 示 ， 回 答 了 上 面 提 到 的 5 个 问题 。 为 了 使 读者 理解 上 面 的 代码 ， 接 下 来 对 代码 做 





详细 的 解释 : 


”通过 dtypes 方法 返回 数据 框 中 每 个 变量 的 数据 类 型 ， 由 于 出 生日 期 birthday 为 字符 型 、 手 机 





号 tel 为 整 型 ,不 便于 第 二 问 和 第 三 问 的 回答 , 所 以 需要 进行 变量 的 类 型 转换 .这 里 通过 Pandas 
模块 中 的 to_datetime 函数 将 birthday 转换 为 日 期 型 (必须 按照 原始 的 birthday 格式 设置 format 
参数 ) 使 用 astype 方法 将 tel 转换 为 字符 型 。 

对 于 年 龄 和 工龄 的 计算 ， 需 要 将 当前 日 期 与 出 生日 期 和 开始 工作 日 期 进行 减法 运算 ， 而 当前 
日 期 的 获得 ， 则 使 用 了 Pandas 子 模块 datetime 中 的 today 函数 。 由 于 计算 的 是 相隔 的 年 数 ， 
所 以 还 需 进 一 步 取出 日 期 中 的 年 份 (year 方法 )。 需 要 注意 的 是 ， 对 于 birthday 和 start_work 
变量 ， 使 用 year 方法 之 前 ， 还 需 使 用 此 方法 ， 否 则 会 出 错 。 

隐藏 手机 号 的 中 间 四 位 和 衍生 出 邮箱 域名 变量 ， 都 是 属于 字符 串 的 处 理 范畴 ， 两 个 问题 的 解 
决 所 使 用 的 方法 分 布 是 字符 囊 中 的 普 换 法 (replace ) 和 分 割 法 (split)。 由 于 替换 法 和 分 割 法 
所 处 理 的 对 象 都 是 变量 中 的 每 一 个 观测 , 属于 重复 性 工作 , 所 以 考虑 使 用 序列 的 apply 方法 。 
需要 注意 的 是 ，apply 方法 中 的 func 参数 都 是 使 用 匿名 函数 ， 对 于 隐藏 手机 号 中 间 四 位 的 思 
路 就 是 用 星 号 替换 手机 号 的 中 间 四 位 ; 对 于 邮箱 域名 的 获取 ， 其 思路 就 是 按照 邮箱 中 的 @ 符 
风格 ， 然 后 取出 第 二 个 元 素 (列表 索引 为 1 )。 

从 other 变量 中 获取 人 员 的 专业 信息 ， 该 问题 的 解决 使 用 了 字符 囊 的 正则 表达 式 ， 不 管 是 字 
符 串 “方法 ”还 是 字符 串 正 则 ， 在 使 用 前 都 需要 对 变量 使 用 一 次 str 方法 。 由 于 findall 返回 
的 是 列表 值 ,因此 衍生 出 的 email domain 字段 值 都 是 列表 类 型 ,如 果 读 者 不 想 要 这 个 中 括号 ， 
可 以 参考 第 三 问 或 第 四 间 的 解决 方案 ， 这 里 就 不 再 殴 述 了 。 

如 果 需 要 删除 数据 集中 的 某 些 变量 , 可 以 使 用 数据 框 的 drop 方法 .该 方法 接受 的 第 一 个 参数 ， 
就 是 被 删除 的 变量 列表 ， 尤 其 要 注意 的 是 ， 需 要 将 axis 参数 设置 为 1， 因 为 默然 drop 方法 是 
用 来 删除 数据 框 中 的 行 记录 。 


关于 更 多 数据 框 中 字符 型 变量 的 处 理 “ 方 法 ”可 以 参考 第 3 章 ， 最 后 ， 再 针对 日 期 型 数据 罗 
列 一 些 常用 的 “方法 ”， 见 表 5-13， 希 望 对 读者 的 学 习 和 记忆 有 所 帮助 。 














































































































从 零 开始 学 Python 数据 分 析 与 挖掘 
表 5-13 常用 的 日 期 时 间 处 理 “方法 ” 

方法 

year 

day 

minute Second 

date time 返回 时 间 

dayofyear weekofyear 返回 年 中 第 几 周 

dayofweek weekday name 返回 具体 的 周 几 名 称 

quarter days in _ month 返回 月 中 多 少 天 
接 下 来 ， 挑 选 几 个 日 期 处 理 “ 方 法 ”用 以 举例 说 明 : 
# 常用 日 期 处 理 方法 


dates = pd.to datetime (pd.Series(['1989-8-18 13:14:55'"v"1995-2-16"])， 
format = '%Y-%m-%d %H:%M:%S') 

print (' 返 回 日 期 值 : \n', dates.dt.date) 

print (' 返 回 季度 ; \n', dates.dt.quarter) 

print (' 返 回 几 点 钟 ， \n' dates.dt.hour) 

print (' 返 回 年 中 的 天 : \n', dates .dt.dayofyear) 

Print (' 返 回 年 中 的 周 : \n', dates.dt .weekofyear) 

print (' 返 回 星期 几 的 名 称 : \n',dates.dt .weekday_name) 

print (' 返 回 月 份 的 天 数 : \n', dates.dt.days_in month) 


out: 

回 日 期 值 : 
1989-08-18 
1995-02-16 

ype: object 

回 季度 : 

» 
1 

type: int64 

回 几 点 钟 : 
3 
0 

ype: int64 

回 年 中 的 天 : 
230 
47 

ype: int64 

回 年 中 的 周 : 

33 
注 

ype: int64 

回 星期 几 的 名 称 : 

Friday 


加 


人 


G3 


G3 


Thursday 
type: object 
回 月 份 的 天 数 : 
31 
28 
dtype: int64 





Po 耽 2Po 庚 2PFo 雇 2"ro 记 2"ro 麒 2"ro 鹿 2 "ro 遍 
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5.5 和 常用 的 数据 清洗 方法 


在 数据 处 理 过程 中 ， 一 般 都 需要 进行 数据 的 清洗 工作 ， 如 数据 集 是 否 存 在 重复 、 是 否 存 在 缺 
失 、 数 据 是 否 具 有 完整 性 和 一 致 性 、 数据 中 是 否 存 在 异常 值 等 。 当 发 现 数据 中 存在 如 上 可 能 的 问题 
时 ， 都 需要 有 针对 性 地 处 理 ， 本 节 将 重点 介绍 如 何 识别 和 处 理 重复 观测 、 缺 失 值 和 异常 值 。 


5.5.1 重复 观测 处 理 


重复 观测 ， 顾 名 思 义 是 指 观测 行 存在 重复 的 现象 ， 重 复 观 测 的 存在 会 影响 数据 分 析 和 挖掘 结 
果 的 准确 性 ， 所 以 在 数据 分 析 和 建 模 之 前 需要 进行 观测 的 重复 性 检验 ， 如 果 存 在 重复 观测 ， 还 需要 
进行 重复 项 的 删除 。 

在 搜集 数据 过 程 中 ， 可 能 会 存在 重复 观测 的 出 现 ， 例 如 通过 网 络 怜 虫 ， 就 比较 容易 产生 重复 
数据 。 如 表 5-14 所 示 ， 就 是 通过 疏 虫 获得 某 APP 市 场 中 电 商 类 APP 的 下 载 量 数据 (部 分 ) ， 通 过 
肉眼 ， 是 能 够 发 现 这 10 行 数据 中 的 重复 项 的 ， 例 如 ， 唯 品 会 出 现 了 两 次 、 当 当 出 现 了 三 次 。 如 果 
搜集 上 来 的 数据 不 是 10 行 , 而 是 10 万 行 ， 甚 至 更 多 时 ， 就 无 法 通过 肉眼 的 方式 检测 数据 是 否 存在 
重复 项 了 。 下 面 将 介绍 如 何 运 用 Python 对 读 入 的 数据 进行 重复 项 检查 ， 以 及 如 何 删除 数据 中 的 重 
复 项 。 











表 5-14 待 清洗 数据 


到 B 5 E F 





8 
Update 








































appcategory ame | comments | install | size 

2 网 上 购 网 - 凋 城 - 团 隐 - 优 更- 快递 ”| 每 日 优 多 ”1297 2047 万 “|89.00% |1516MB |2017 年 10 有 11 昌 
3 网 上 购物 -高城 苏宁 局 风 [577 [7996.8 万 [73.00% |58.9MB |2017 和 09 月 21 日 
二 “网 上 则 多 商城 -优惠 夫人 [2543 7090.1 万 [86.00% |41.43MB |2017 年 10 月 13 日 
引 网 上 购物 -南城 -优惠 [Wa 会 [2543 [7090.1 万 T86.00% |41.43M8 |2017 年 10 月 13 日 
6 网 上 购 钨 -高城 插 多 多 Tig21 3841.9 万 Tos.00% 13.35M8 |2017 年 10 月 11 日 
了 “网 上 购物 -商城 -优惠 | 寺 库 考 多 号 1964 1754 万 100 00% |17.21MB |2017 年 09 月 306 | 
3 网 上 购物 -高城 ES Nia244 4.6 世 [68.00% |73.78M8 |2017 年 10 月 13 日 
3 网 上 购物 -这 二 寻 - 优 章 当当 Ta4 16153 万 [51.00%_|3701MB |2017 年 10 月 17 日 
10 网 上 购 多 -南城 -团购 -优惠 I€ 1515.3 万 61.00% |37.01M8 |2017 年 10 月 17 下 
11 网 上 风物 -高 城 -团购 -优惠 1615.3 万 [61.00% |37.01MB |2017 年 10 月 17 日 














# 数据 读 入 

df = pd.read excel(r'C:\Users\Administrator\Desktop\data test04.xlsx') 
# 重复 观测 的 检测 

Print (' 数 据 集 中 是 否 存在 重复 观测 : \n',any (df .duplicated())) 


out: 

数据 集中 是 否 存 在 重复 观测 : 

True 

检测 数据 集 的 记录 是 否 存在 重复 ， 可 以 使 用 duplicated 方法 进行 验证 , 但 是 该 方法 返回 的 是 数 
据 集 每 一 行 的 检验 结果 ， 即 10 行 数据 会 返回 10 个 bool 值 。 很 显然 ， 这 样 也 不 能 直接 得 知 数据 集 
的 观测 是 否 重复 , 为 了 能 够 得 到 最 直接 的 结果 ,可 以 使 用 any 函数 。 该 函数 表示 的 是 在 多 个 条 件 判 
断 中 ， 只 要 有 一 个 条 件 为 True， 则 any 函数 的 结果 就 为 True。 正 如 结果 所 示 ，any 函数 的 运用 返回 
True 值 ， 说 明 该 数据 集 是 存在 重复 观测 的 。 接 下 来 ， 删 除数 据 集中 的 重复 观测 : 
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# 删除 重复 项 

df.drop duplicates (inplace = True) 
qf 

见 表 5-15。 


表 5-15 重复 观测 的 删除 结果 















































appeategory appname comments [neal Jiove [size | Update 

0 | 网 上 购 槐 商城- 男 购 -优惠 - 亿 半 | 每 日 优 峡 | 1297 2047 万 | ss .oo% [15.16MB |2017 年 10 有 1 日 
1| 网 上 购物 商城 夯 宁 号 旭 “|577 7996.8 万 |73.00% [58.6ME |2017 年 09 月 21 日 
2 | 网 上 购物 -商城 优惠 旺 品 会 。 |2543 7090.1 万 [86.00% |41.43MB | 2017 年 10 月 13 日 
4 | 网 上 购物 -商城 拼 多 多 1921 3841.9 万 | 5.00% | 13.35MB | 2017 年 10 月 11 日 
5 | 网 上 风物- 高城- 优惠 寺 庄 守 谷 品 | 1964 1754 万 | 100.00%| 17.21MB | 2017 年 09 月 30 日 
6 | 网 上 购 攀 -高 起 淘宝 14244 [46@ [6800% |7378MB| 2017 年 10 有 13 日 
了 | 网 上 购物 -高 城 -团购 -优惠 当当 134 16153 万 |6100% |37 01MB| 2017 年 10 月 17 日 








如 表 5-15 所 示 ， 原 先 的 10 行 观测 在 排 重 后 得 到 7 行 ， 被 删除 的 行 号 为 3、8 和 9。 同样， 该 
方法 中 也 有 inplace 参数 ， 设 置 为 True 就 表示 直接 在 原始 数据 集 上 做 操作 。 


5.5.2 ”缺失 值 处 理 


缺失 值 是 指数 据 集中 的 某 些 观测 存在 遗漏 的 指标 值 ， 缺 失 值 的 存在 同样 会 影响 到 数据 分 析 和 
挖 据 的 结果 。 导 致 观测 的 缺失 可 能 有 两 方面 原因 ， 一 方面 是 人 为 原因 (如 记录 过 程 中 的 遗漏 、 个 人 
隐私 而 不 愿 透露 等 ) ， 另 一 方面 是 机 器 或 设备 的 故障 所 导致 (如 断 电 或 设备 老化 等 原因 〉。 

一 般 而 言 ， 当 遇 到 缺失 值 (Python 中 用 NaN 表示 ) 时， 可 以 采用 三 种 方法 处 置 ， 分 别 是 删除 
法 、 蔡 换 法 和 插 补 法 。 删 除法 是 指 当 缺失 的 观测 比例 非常 低 时 如 5% 以 内 ) ， 直 接 删 除 存在 缺失 
的 观测 ， 或 者 当 某 些 变量 的 缺失 比例 非常 高 时 (如 85% 以 上 〉， 直 接 删 除 这 些 缺 失 的 变量 ， 替 换 
法 是 指 用 某 种 常数 直接 替换 那些 缺失 值 ， 例 如 ， 对 连续 变量 而 言 ， 可 以 使 用 均值 或 中 位 数 替换 ， 对 
于 离散 变量 ， 可 以 使 用 众 数 蔡 换 ， 揪 补 法 是 指 根据 其 他 非 缺失 的 变量 或 观测 来 预测 缺失 值 ， 常 见 的 
插 补 法 有 回归 插 补 法 、K 近邻 插 补 法 、 拉 格 朗 日 插 补 法 等 。 

为 了 简单 起 见 ， 本 节 就 重点 介绍 删除 法 和 蔡 换 法 ， 采 用 的 数据 来 自 于 某 游戏 公司 的 用 户 注册 
信息 《〈 仅 以 10 行 记录 为 例 ) ， 见 表 5-16。 


表 5-16 待 处 理 的 缺失 值 数据 

uid regit_date |gender|age |income 
0|81200457|2016-10-30|M 23.0|6500.0 

1|81201135 | 2016-11-08 | M 27.0|10300.0 
2|80043782|2016-10-13|F NaN|13500.0 
3|84639281|2017-04-17|M 26.0|6000.0 

14| 73499801|2016-03-21| NaN NaN|45000 
15 
6 

[4 

8 

9 























72399510|2016-01-18 19.0|NaN 





63881943| 2015-10-07 21.0|10000.0 


M 

M 
35442690|2015-04-10|F NaN|58000 

M 

M 








77638351|2016-07-12 25.0|18000.0 























85200189 | 2017-05-18 220|NaN 





从 表 5-16 展现 的 数据 可 知 ， 该 数据 集 存在 4 条 缺失 观测 ， 行 号 分 别 是 4、5、7 和 9， 表 中 的 
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缺失 值 用 NaN 表示 。 接 下 来 要 做 的 是 如 何 判 断 数据 集 是 否 存在 缺失 值 〈 尽 管 记录 数 少 的 时 候 可 以 
清楚 地 发 现 ) : 

# 数据 读 入 

df = pd.read excel(r'C:\Users\Administrator\Desktop\data test05.xlsx') 


# 缺失 观测 的 检测 
print (' 数 据 集中 是 否 存 在 缺失 值 : \n' ,any (df.isnu11())) 


out: 
数据 集中 是 否 存 在 缺失 值 : 


True 

检测 数据 集 是 否 存 在 重复 观测 使 用 的 是 isnull 方法 , 该 方法 仍然 是 基于 每 一 行 的 检测 ， 所 以 仍 
然 需 要 使 用 any 函数 ,返回 整个 数据 集中 是 否 存在 缺失 的 结果 。 从 代码 返回 的 结果 看 ,该 数据 集 确 
实 是 存在 缺失 值 的 。 接 下 来 分 别 使 用 两 种 方法 实现 数据 集中 缺失 值 的 处 理 : 

# 删除 法 之 记录 删除 

df.dropna() 


# 删除 法 之 变量 删除 
df.drop('age', axis = 1) 


见 表 5-17。 
表 5-17 ”观测 删除 与 变量 删除 


uid regit_date | gender |income 
81200457|2016-10-30| M 65000 

81201135 | 2016-11-08 | M 10300.0 
80043782|2016-10-13|F 135000 

















0 
1 
[elo laorm ou mlm [asolevon0 | . 
3|84639281|2017-04-17|M 60000 
DE rE ee oraocrl ao | 
5 





73499801 |2016-03-21| Nal 45000 
72399510|2016-01-18|M NaN 
6|63881943|2015-10-07|M 10000.0 
7|35442690|2015-04-10|F 58000 
8|77638351|2016-07-12|M 180000 
9|85200189|2017-05-18|M NaN 








[elrrosssr laoronalw asolrooood] 
































如 表 5-17 所 示 ， 左 表 为 行 删除 法 ， 即 将 所 有 含 缺 失 值 的 行 记录 全 部 删除 ， 使 用 dropna 方法 ; 
右 表 为 变量 删除 法 , 由 于 原 数据 集中 age 变量 的 缺失 值 最 多 , 所 以 使 用 drop 方法 将 age 变量 删除 。 

# 替换 法 之 前 向 替换 

df.fillna(method = 'ffill') 


# 替换 法 之 后 向 替换 
df.fillna(method = 'bfill') 


见 表 5-18。 
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表 5-18 缺失 观测 的 前 向 填充 与 后 向 填充 































































uid regit_date | gender| age |income regit_date | gender| age |income 
0|81200457|2016-10-30|M 230|65000 2016-10-30|M 23.0|65000 
1|81201135 |2016-11-08 |M 27.0|103000 2016-11-08 |M 27.0|103000 
2|80043782|2016-10-13|F 27.0|135000 2016-10-13|F 26.0|135000 
3|84639281|2017-04-17| M 260|sooo0 2017-04-17|M 26.0|6o000 
4|73499801|2016-03-21 260|45000 2016-03-21|M 19.0|4500.0 
5|72399510 ee 2016-01-18|M 19.0|100000 
6|63881943|2015-10-07 |M 21.0|100000 2015-10-07|M 21.0|100000 
7|35442690|2015-04-10|F 210|58oo0 2015-04-10|F 250|58000 
8|77638351|2016-07-12|M 250|180000 2016-07-12| M 25.0|180000 
9|85200189|2017-05-18 |M 220|180000 引 85200189|2017-05-18| M 220|NaN 








缺失 值 的 蔡 换 需要 借助 于 fillna 方法 ， 该 方法 中 的 method 参数 可 以 接受 ' 伍 由 和 'bfill' 两 种 值 ， 
分 别 代表 前 向 填充 和 后 向 填充 。 前 向 填充 是 指 用 缺失 值 的 前 一 个 值 蔡 换 〈 如 左 表 所 示 ) ， 而 后 向 填 
充 则 表示 用 缺失 值 的 后 一 个 值 奉 换 (如 右 表 所 示 ) 。 右 表 中 的 最 后 一 个 记录 仍 包含 缺失 值 ， 是 因为 
后 向 填充 法 找 不 到 该 缺失 值 的 后 一 个 值 用 于 替换 .缺失 值 的 前 向 填充 或 后 向 填充 一 般 适 用 于 时 间 序 
列 型 的 数据 集 ， 因 为 这 样 的 数据 前 后 具有 连贯 性 ， 而 一 般 的 独立 性 样本 并 不 适用 该 方法 。 

# 替换 法 之 常数 替换 

df.fillna(value = 0) 

# 替换 法 之 统计 值 替 换 


df.fillna(value = {'gender':df.gender.mode() [0], 'age':df.age.mean(), 
'income' :df.income.median()}) 


































































见 表 5-19。 
表 5-19 缺失 观测 的 值 填充 
uid regit_date income regit_date | gender 

0|81200457 | 2016-10-30 23.0|65000 0|81200457|2016-10-30|M 23.000000|65000 

1|81201135 |2016-11-08 27.0|10300.0 1|81201135 | 
2|80043782|2016-10-13 00 |135000 2|80043782|2016-10-13|F 23.285714| 13500.0 
3|84639281|2017-04-17 26.0|60000 3|84639281|2017-04-17|M 26.000000|60000 

4|73499801|2016-03-21 0 |45000 4|73499801|2016-03-21|M 23.285714| 4500.0 

5|72399510|2016-01-18 5|72399510|2016-01-18|M 19.000000|82500 

6|63881943|2015-10-07 21.0|10000.0 6|63881943|2015-10-07|M 21.000000| 10000.0 
7|35442690|2015-04-10 00 |58000 7|35442690|2015-04-10|F 23.285714|58000 

8|77638351|2016-07-12 25.0|180000 8|77638351|2016-07-12|M 25.000000| 18000.0 
9|85200189|2017-05-18 9|85200189|2017-05-18|M 22 000000|82500 









































另 一 种 替换 手段 仍然 是 使 用 fillna 方法 ， 只 不 过 不 再 使 用 method 参数 ， 而 是 使 用 value 参数 。 
左 表 是 使 用 一 个 常数 0 替换 所 有 的 缺失 值 (有 些 情况 是 有 用 的 ， 例 如 某 人 确实 没有 工作 ， 故 收入 为 
0) ， 但 是 该 方法 就 是 典型 的 “以 点 概 面 ”， 非 常 容易 导致 错误 ， 例 如 结果 中 的 性 别 莫名 多 出 异样 
的 0 值 ; 右 表 则 是 采用 了 更 加 灵活 的 替换 方法 ， 即 分 别 对 各 缺失 变量 使 用 不 同 的 替换 值 ( 需 要 采用 
字典 的 方式 传递 给 value 参数 ) ， 性 别 使 用 众 数 替换 ， 年 龄 使 用 均值 蔡 换 ， 收 入 使 用 中 位 数 替换 。 
需要 说 明 的 是 ， 如 上 代码 并 没有 实际 改变 df 数据 框 的 结果 ， 因 为 dropna、drop 和 filina 方法 
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并 没有 使 inplace 参数 设置 为 True。 读 者 可 以 在 实际 的 学 习 和 工作 中 挑选 一 个 适当 的 缺失 值 处 理 方 
法 ， 然 后 将 该 方法 中 的 inplace 参数 设置 为 True， 进 而 可 以 真正 地 改变 你 所 处 理 的 数据 集 。 


5.5.3 ”异常 值 处 理 


异常 值 是 指 那些 远离 正常 值 的 观测 ， 即 “不 合群 ”观测 。 导 致 异常 值 的 出 现 一 般 是 人 为 的 记 
录 错 误 或 者 是 设备 的 故障 等 , 异常 值 的 出 现 会 对 模型 的 创建 和 预测 产生 严重 的 后 果 。 当 然 异常 值 也 
不 一 定 都 是 坏事 ， 有 些 情 况 下 ， 通 过 寻找 异常 值 就 能 够 给 业务 带 来 良好 的 发 展 ， 如 销毁 “钓鱼 ”网 
站 、 关 闭 “ 欧 羊毛 ”用 户 的 权限 等 。 

对 于 异常 值 的 检测 ， 一 般 采 用 两 种 方法 ， 一 种 是 n 个 标准 差 法 ， 另 一 种 是 箱 线 图 判别 法 。 标 
准 差 法 的 判断 公式 是 outlinear > |xX 土 no|， 其 中 zx 为 样本 均值 ，o 为 样本 标准 差 ， 当 n = 2 时 ， 满 足 
条 件 的 观测 就 是 异常 值 ， 当 n = 3 时 ， 满 足 条 件 的 观测 就 是 极端 异常 值 ， 箱 线 图 的 判断 公式 是 
outlinear > Q3 + n1QR 或 者 outlinear < Q1 一 n1IQR， 其 中 Q1 为 下 四 分 位 数 (25%) ，Q3 为 上 四 位 
数 (75%) ，1QR 为 四 分 位 差 ( 上 四 分 位 数 与 下 四 分 位 数 的 差 )， 当 n = 1.5 时 ， 满 足 条 件 的 观测 为 
异常 值 ， 当 n = 3 时 , 满足 条 件 的 观测 即 为 极端 异常 值 。 为 了 方便 读者 理解 异常 值 (图 中 的 红色 点 ) 
的 两 种 判别 方法 ， 可 以 参见 图 5-5。 





Q3+ nigR 


Q3 





Q1 


Q1— mer 


图 5-5 异常 值 判 断 的 两 种 方法 


这 两 种 方法 的 选择 标准 如 下 ， 如 果 数 据 近似 服从 正 态 分 布 时 ， 优 先 选 择 n 个 标准 差 法 ， 因 为 
数据 的 分 布 相 对 比较 对 称 ; 否则 优先 选择 箱 线 图 法 ， 因 为 分 位 数 并 不 会 受到 极端 值 的 影响 。 当 数据 
存在 异常 时 ， 一 般 可 以 使 用 删除 法 将 异常 值 删除 (前提 是 异常 观测 的 比例 不 能 太 大 ) 、 替 换 法 (可 
以 考虑 使 用 低 于 判别 上 限 的 最 大 值 或 高 于 判别 下 限 的 最 小 值 奉 换 、 使 用 均值 或 中 位 数 替换 等 ) 。 下 
面 将 以 年 为 单位 的 太阳 黑子 个 数 为 例 〈 时 间 范 围 : 1700 一 1988) ， 识 别 并 处 理 异 常 值 : 


# 数据 读 入 

sunspots = pd.read table(r'C:\Users\Administrator\Desktop\sunspots.csv', sep = ',') 
# 异常 值 检测 之 标准 差 法 

xbar = sunspots.counts.mean() 

xstd = sunspots.counts.std() 

print ( "标准 差 法 异常 值 上 限 检测 : \n',any (sunspots.counts > xbar + 2 * xstd)) 

print (' 标 准 差 法 异常 值 下 限 检测 : \n',any (sunspots.counts < xbar - 2 * xstd)) 

# 异常 值 检测 之 箱 线 图 法 

Q1 = sunspots.counts.quantile(q = 0.25) 

Q3 = sunspots.counts.quantile(q = 0.75) 
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IOR = 03 = QF 
print (' 箱 线 图 法 异常 值 上 限 检测 : \n',any (sunspots.counts > 03 + 1.5 * IQR)) 
print (' 箱 线 图 法 异常 值 下 限 检测 ; \n',any (sunspots.counts < Q1 - 1.5 * IQR)) 


out: 

标准 差 法 异常 值 上 限 检测 : 
True 

标准 差 法 异常 值 下 限 检测 : 
False 

箱 线 图 法 异常 值 上 限 检测 : 
True 

箱 线 图 法 异常 值 下 限 检测 : 


False 


如 上 结果 所 示 , 不 管 是 标准 差 检验 法 还 是 箱 线 图 检验 法 , 都 发 现 太阳 黑子 数据 中 存在 异常 值 ， 
而 且 异常 值 都 是 超过 上 限 临界 值 的 。 接 下 来 ,通过 绘制 太阳 黑子 数量 的 直方 图 和 核 密度 曲线 图 ， 用 
于 检验 数据 是 否 近似 服从 正 态 分 布 ， 进 而 选择 一 个 最 终 的 异常 值 判 别 方法 : 


# 导入 绘图 模块 

import matplotlib.pyplot as plt 

# 设置 绘图 风格 

plt.style.use('ggplot') 

# 绘制 直方 图 

sunspots.counts.plot (kind = 'hist', bins = 30, normed = True) 
# 绘制 核 密 度 图 

sunspots.counts.plot (kind = 'kde') 

# 图 形 展现 

Plt.show() 





见 图 5-6。 
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图 5-6 太阳 黑子 直方 图 和 核 密度 曲线 


如 图 5-6 所 示 , 不 管 是 直方 图 还 是 核 密度 曲线 ， 所 呈现 的 数据 分 布 形状 都 是 有 偏 的 , 并 且 属 于 
右 偏 。 基于 此 ,这 里 选择 箱 线 图 法 来 判定 太阳 黑子 数据 中 的 那些 异常 值 。 接 下 来 要 做 的 就 是 选用 删 
除法 或 替换 法 来 处 理 这 些 异常 值 , 由 于 删除 法 的 Python 代码 已 经 在 5.5.2 节 的 缺失 值 处 理 中 介绍 过 ， 
这 里 就 使 用 蔡 换 法 来 处 理 异常 值 , 即使 用 低 于 判别 上 限 的 最 大 值 或 高 于 判别 下 限 的 最 小 值 奉 换 , 代 
码 如 下 : 

# 替换 法 处 理 异常 值 





第 5 章 Python 数 据 处 理工 具 一 一 Pandas | 99 





print (' 异 常 值 蔡 换 前 的 数据 统计 特征 : \n', sunspots.counts.describe()) 
# 箱 线 图 中 的 异常 值 判别 上 限 

YR 

Print ("判别 异常 值 的 上 限 临 界 值 : \n', UL) 

# 从 数据 中 找 出 低 于 判别 上 限 的 最 大 值 

replace value = sunspots.counts[sunspots.counts < UL] .max() 
print (' 用 以 替换 异常 值 的 数据 ，\n' ,replace value) 

# 替换 超过 判别 上 限 异 常 值 

sunspots.counts[sunspots.counts > UL] = replace value 


print (' 异 常 值 替 换 后 的 数据 统计 特征 : \n',sunspots.counts.describe ()) 


out: 

判别 异常 值 的 上 限 临 界 值 : 148.85 

用 以 替换 异常 值 的 数据 : 141 .7 

如 果 使 用 箱 线 图 法 判别 异常 值 ， 则 认定 太阳 黑子 数目 一 年 内 超过 148.85 时 即 为 异常 值 年 份 ， 
对 于 这 些 年 份 的 异常 值 使 用 141.7 蔡 换 。 为 了 比较 替换 前 后 的 差异 ， 将 太阳 黑子 数量 的 统计 值 汇总 
到 表 5-20 中 。 





表 5-20 异常 值 处 理 前 后 的 统计 描述 对 比 












count mean std min 25% 50% 75% max 
替换 前 |289 |4s6! | |o 856 |3 je | 


蔡 换 后 |289 |as07 |37% Jo Tise J Jeo | 


由 表 5-20 可 知 ， 对 于 异常 值 的 蔡 换 ， 改 变 了 原始 数据 的 均值 、 标 准 差 和 最 大 值 ， 并 且 这 些 值 
改变 后 都 降低 了 ， 这 是 显而易见 的 ， 因 为 是 将 所 有 超过 148.85 的 异常 值 改 为 了 较 低 的 141.7。 


5.6 ”数据 子 集 的 获取 


有 时 数据 读 入 后 并 不 是 对 整体 数据 进行 分 析 ， 而 是 数据 中 的 部 分 子 集 ， 例 如 ， 对 于 地 铁 乘客 
量 可 能 只 关心 某 些 时 间 段 的 流量 、 对 于 商品 的 交易 可 能 只 需要 分 析 某 些 颜色 的 价格 变动 、 对 于 医疗 
诊断 数据 可 能 只 对 某 个 年 龄 段 的 人 群 感 兴趣 等 。 所 以 , 该 如 何 根 据 特定 的 条 件 实现 数据 子 集 的 获取 
将 是 本 节 的 主要 内 容 。 

通常 ， 在 Pandas 模块 中 实现 数据 框 子 集 的 获取 可 以 使 用 iloc、loc 和 ix 三 种 “方法 ”， 这 三 种 
方法 既 可 以 对 数据 行进 行 第 选 ， 也 可 以 实现 变量 的 挑选 ， 它 们 的 语法 可 以 表示 成 [rows_select, 
cols_select]。 

iloc 只 能 通过 行 号 和 列 号 进行 数据 的 筛选 ， 读 者 可 以 将 iloc 中 的 “i” 理 解 为 “integer”， 即 只 
能 向 [rows_select，cols_select] 指 定 整数 列表 。 该 索引 方式 与 数组 的 索引 方式 类 似 ， 都 是 从 0 开始 ， 
可 以 间隔 取 号 ， 对 于 切片 仍然 无 法 取 到 上 限 。 

loc 要 比 iloc 灵活 一 些 ,读者 可 以 将 loc 中 的 “1” 理 解 为 “label”, 即 可 以 向 [rows_select, cols_select] 
指定 具体 的 行 标签 〈 行 名 称 ) 和 列 标签 (字段 名 ) 。 注 意 ， 这 里 是 标签 不 再 是 索引 。 而 且 ， 还 可 以 
将 rows_select 指定 为 具体 的 筛选 条 件 ， 在 iloc 中 是 无 法 做 到 的 。 

ix 是 iloc 和 loc 的 混合 , 读者 可 以 将 ix 理解 为 “mix”, 该 “方法 ”吸收 了 iloc 和 loc 的 优点 ， 
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使 数据 框 子 集 的 获取 更 加 灵活 。 为 了 使 读者 理解 这 三 种 方法 的 使 用 和 差异 , 接 下 来 通过 具体 的 代码 
加 以 说 明 : 
# 构造 数据 集 
dfl = pd.DataFrame ({'name':[' 张 三 ', ' 李 四 ', ' 王 二 ', ' 丁 一 ', ' 李 五 '] ， 
"gender':[" 男 '",' 女 '，" 女 '," 女 '，' 男 '] 
"age': [23,26,22,25,27]}, columns = ['name','gender','age']) 


dfl 

# 取出 数据 集 的 中 间 三 行 ( 即 所 有 女性 ) ， 并 且 返 回 姓名 和 年 龄 两 列 
df1.iloc[1:4, [0,2]] 

dfl.loc[1:3, ['name','age']] 

df1.ix[1:3, [0,2]] 


见 表 5-21。 
表 5-21 数据 子 集 的 获取 结果 


















































name gender age [name age| [name]aee| |name age 
ols= | 号 |23 引 sm |26 | 1|#m |26 | 让 地 四 |26 
1|# 四 | 女 |26 2lE= |2 | [zlE= |> ?| 王 = |22 
2| | 女 |2 7—|zs| 上 六 |xs | 3|T— |25 
3|J 一 | 女 25 
4|s | |27 


如 上 结果 所 示 ， 如 果 原 始 数据 的 行 号 与 行 标签 名称) 一 致 ，iloc、loc 和 ix 三 种 方法 都 可 以 
取出 满足 条 件 的 数据 子 集 。 所 不 同 的 是 ，iloc 运用 了 索引 的 思想 ， 故 中 间 三 行 的 表示 必须 用 1:4， 
因为 切片 索引 取 不 到 上 限 ， 同 时 ， 姓 名 和 年 龄 两 列 也 必须 用 数值 索引 表示 ;loc 是 指 获取 行 或 列 的 
标签 (名 称 ) ， 由 于 该 数据 集 的 行 标签 与 行 号 一 致 ， 所 以 1:3 就 表示 对 应 的 3 个 行 名 称 ， 而 姓名 和 
年 龄 两 列 的 获取 就 不 能 使 用 数值 索引 了 ,只 能 写 入 具体 的 变量 名 称 ;ix 则 混合 了 iloc 与 loc 的 优点 ， 
如 果 数据 集 的 行 标签 与 行 号 一 致 ， 则 ix 对 观测 行 的 筛选 与 loc 的 效果 一 样 ， 但 是 ix 对 变量 名 的 得 
选 既 可 以 使 用 对 应 的 列 号 《如 代码 所 示 ) ， 也 可 以 使 用 具体 的 变量 名 称 。 

假如 数据 集 没有 行 号 , 而 是 具体 的 行 名 称 , 该 如 何 使 用 这 三 种 方法 实现 中 间 三 行 数据 的 获取 ? 
代码 如 下 : 

# 将 员工 的 姓名 用 作 行 标签 

df2 = dfl.set index('name') 

df2 

# 取出 数据 集 的 中 间 三 行 

df2.iloc[1:4,:] 

df2.1oc[[' 李 四 '", ' 王 二 ',' 本 一 '],:] 

df2.ix[1:4,:] 

见 表 5-22。 

注意 ， 这 时 的 数据 集 是 以 员工 姓名 作为 行 名 称 ， 不 再 是 之 前 的 行 号， 对 于 目标 数据 的 返回 同 
样 可 以 使 用 iloc、loc 和 ix 三 种 方法 。 对 于 iloc 来 说 ， 不 管 什么 形式 的 数据 集 都 可 以 使 用 ， 始 终 表 
示 行 索引 ， 即 取 哪 些 行 下 标的 观测 ，loc 就 不 能 使 用 数值 表示 行 标签 了 ， 因 为 此 时 数据 集 的 行 标签 
是 姓名 ,所 以 需要 写 入 中 间 三 行 对 应 的 姓名 ; 通过 ix 方法 ， 既 可 以 用 行 索引 (如 代码 所 示 ) 表示 ， 
也 可 以 用 行 标签 表示 ， 可 根据 读者 的 喜好 选择 。 由 于 并 没有 对 数据 集 的 变量 做 任何 限制 ， 所 以 





型 


第 5 章 ”Python 数据 处 理工 具 一 一 Pandas | 101 





cols_select 用 英文 冒号 表示 ， 代 表 取 出 数据 集 的 所 有 变量 。 
表 5-22 数据 子 集 的 获取 结果 


gender| age gender| age gender| age gender| age 








| a ml | 区 
23| lm| |2| [ml |2 | |¥m [x |2 



























































男 
李 四 | 女 |26 王女 |l2| lA= lx |2 王女 |2 
王 = | 女 |2 J—| lzs| -lk lzs J—| 女 |25 
J-| 女 |zs 
李 五 | 男 27 





很 显然 ， 在 实际 的 学 习 和 工作 中 ， 观 测 行 的 筛选 很 少 是 通过 写 入 具体 的 行 索引 或 行 标签 ， 而 
是 对 某 些 列 做 条 件 筛选 ， 进 而 获得 目标 数据 。 例 如 ， 在 上 面 的 dfl 数据 集中 ,如 何 返回 所 有 男性 的 
姓名 和 年 龄 ， 代 码 如 下 : 


# 使 用 筛选 条 件 ， 取 出 所 有 男性 的 姓名 和 年 龄 

# dfl.iloc[dfl.gender == ' 男 ',] 
dfl.loc[dfl.gender == ' 男 ', ['name','age']] 
df1.ix[dfl.gender == ' 男 ', ['name', 'age']] 








见 表 5-23。 
表 5-23 ”数据 子 集 的 获取 结果 


name | gender | age [name age| name [age 
ol#= | 罗 |23 | lolxk= |23 | lolk= [23 
1 


李 四 | 女 26 4| 李 五 |27 4| 李 五 |27 















































如 果 是 基于 条 件 的 记录 筛选 ， 只 能 使 用 loc 和 ix 两 种 方法 。 正 如 代码 所 示 ， 对 iloc 方法 的 那 
行 代码 做 注释 ， 是 因为 iloc 不 允许 使 用 条 件 筛选 ， 这 行 代码 是 无 法 运行 成 功 的 。 对 变量 名 的 筛选 ， 
loc 必须 指定 具体 的 变量 名 ， 而 ix 既 可 以 使 用 变量 名 ， 也 可 以 使 用 字段 的 数值 索引 。 

综 上 所 述 , ix 方法 几乎 可 以 实现 所 有 情况 中 数据 子 集 的 获取 ,是 iloc 和 loc 两 种 方法 的 优点 合 
成 体 ， 而 且 对 于 行 号 与 行 名 称 一 致 的 数据 集 来 说 〈 如 dfl 数据 集 ) ， 名 称 索引 的 优先 级 在 位 置 索引 
之 前 〈 如 本 节 第 一 段 代 码 中 的 dflix[1:3,[0.2]] ) 。 


5.7 ”透视 表 功 能 


相信 读者 在 平时 的 学 习 或 工作 中 经 常会 使 用 到 Excel 的 透视 表 功 能 , 该 功能 的 主要 目的 就 是 实 
现 数据 的 汇总 统计 。 例 如 ， 按 照 某 个 分 组 变量 统计 商品 的 平均 价格 、 销 售 数量 、 最 大 利润 等 ， 或 者 
按照 某 两 个 分 组 变量 构成 统计 学 中 的 列 联 表 〈 计 数 统计 )， 甚 至 是 基于 多 个 分 组 变量 统计 各 组 合 下 
的 均值 、 中 位 数 、 总 和 等 。 如 果 你 使 用 Excel, 只 需要 简单 的 托 拉 搜 就 可 以 迅速 地 形成 一 张 统计 表 ， 
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如 图 5-7 所 示 《〈 数 据 是 关于 珠宝 的 重量 、 颜 色 、 纯 度 、 价 格 、 面 积 等 ) 。 














Er 到 5 5 王 
1 Tx 
2 

EFF 均 EE 
本 站 
5 下 5 = 
Ep 7 
Tl 3999, 135671 
8 dd 569196 加 
a 5091- BT4954 
lo 5323.81802 | 辐 和 各 二 并 
11 总计 3932. 799722 | :ie = FP rise 

器 口 指 R 更 新 3 





图 5-7 Excel 中 的 透视 表 


图 5-7 所 呈现 的 就 是 基于 单个 分 组 变量 实现 的 均值 统计 ， 读 者 只 需 将 分 组 变量 color 拖 入 “ 行 
标签 ” 框 中 、 数 值 变量 price 拖 入 到 “数值 ” 框 中 ， 然 后 下 拉 “ 数 值 ” 单 击 “ 值 字段 设置 ”选择 “ 平 
均值 ”的 计算 类 型 就 可 以 实现 均值 的 分 组 统计 (因为 默认 是 统计 总 和 ) 。 如 果 需 要 构造 列 联 表 〈 如 
图 5-8 所 示 ) ， 可 以 按照 下 方 的 步骤 实现 。 








下 [3 下 3 1 

1 ET x 

有 | ohn 加 > 

生 二 Pair Good Idcal Prcaium Very Good 总 计 | 3. = 

5 1 20 8% 146 205 B74 = 
Be 2 230 268 。 1790 
SI1 3 s240 13065| 
EsI2 00 9194| 
sl 1775 。 al71 
982 91 12258| 
11 wws1 17 188 20¢ 89 3555 
12 mvs2 B89 288 2606 870 1235 。 5oa6| 
19 总 计 1610 4906 21551 13791 12082 53940| 











5-8 ”Excel 中 的 透视 表 


图 5-8 是 关于 频次 的 列 联 表 , 将 分 组 变量 clarity 和 cut 分 别 拖 至 “ 行 标签 ” 框 和 “ 列 标签 ” 框 ， 
然后 将 其 他 任意 一 个 变量 拖 入 “数值 ” 框 中 ， 接 下 来 就 是 选择 “计数 ”的 计算 类 型 。 同 理 ， 如 果 需 
要 生成 多 个 分 组 变量 的 汇总 表 ， 只 需 将 这 些 分 组 变量 根据 实际 情况 分 散 到 “ 行 标签 ”和 “ 列 标签 ” 
框 中 。 

如 果 这 样 的 汇总 过 程 不 是 在 Excel 中 ， 而 是 在 Python 中 ， 该 如 何 实现 呢 ? Pandas 模块 提供 了 
实现 透视 表 功能 的 pivot_table 函数 ， 该 函数 简单 易 用 ， 与 Excel 的 操作 思想 完全 一 致 ， 相 信 读 者 一 
定 可 以 快速 掌握 函数 的 用 法 及 参数 含义 。 接 下 来 ， 向 读者 介绍 一 下 有 关 该 函数 的 参数 含义 : 

pd.pivot_table (data, values=None, index=None, columns=None, 

aggfunc='mean', fill value=None, margins=False, 
dropna=True, margins name="'All') 
data: 指定 需要 构造 透视 表 的 数据 集 。 
values: 指定 需要 拉 入 “数值 ” 框 的 字段 列表 。 
index: 指定 需要 拉 入 “ 行 标签 ” 框 的 字段 列表 。 
columns: 指定 需要 拉 入 “ 列 标签 ” 框 的 字段 列表 。 
aggfunc: 指定 数值 的 统计 函数 ,默认 为 统计 均值 ,也 可 以 指定 numpy 模块 中 的 其 他 统计 函数 。 
fill_value: 指定 一 个 标量 ， 用 于 填充 缺失 值 。 
margins: bool 类 型 参数 ， 是 否 需要 显示 行 或 列 的 总 计 值 ， 默 认为 False。 
dropna: bool 类 型 参数 ， 是 否 需要 删除 整 列 为 缺失 的 字段 ， 默 认为 True。 
margins_name: 指定 行 或 列 的 总 计 名 称 ， 默 认为 All。 
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为 了 说 明 该 函数 的 灵活 功能 ， 这 里 以 上 面 的 珠宝 数据 为 例 ， 重 现 Excel 制作 成 的 透视 表 。 首 先 
来 尝试 一 下 单个 分 组 变量 的 均值 统计 ， 具 体 代码 如 下 : 

# 数据 读 取 

diamonds = pd.read table(r'C:\Users\Administrator\Desktop\diamonds.csv', sep = ',') 

# 单个 分 组 变量 的 均值 统计 


pd.pivot table (data = diamonds, index = 'color', values = 'price', margins = True margins name 


= 总计 和 











见 图 5-9。 
Color 
D 3169.954096 
E 3076.752475 
了 3724.886397 
6 3999.135671 
H 4486.669196 
I 5091. 874954 
J 了 5523.818020 
总 计 3932.799722 
Hane: price, dtype: float64 





5-9 Python 的 透视 表 结果 


如 上 结果 所 示 就 是 基于 单个 分 组 变量 color 的 汇总 统计 (price 的 均值 )， 返回 结果 属于 Pandas 
模块 中 的 序列 类 型 ,该 结果 与 Excel 形成 的 透视 表 完 全 一 致 。 接 下 来 看 看 如 何 构造 两 个 分 组 变量 的 
列 联 表 ， 代 码 如 下 所 示 : 

# 两 个 分 组 变量 的 列 联 表 

# 导入 numpy 模块 

import numpy as np 

pd.pivot table(data = diamonds, index = 'clarity', columns = 'cut', values = 'carat', 

aggfunc = np.size,margins = True, margins name = ' 总 计 ') 





见 表 5-24。 


表 5-24 ”Python 的 透视 表 结 果 


eut |Fair |Good | Idea | Premium Very Good| 总 计 














clarity 
m |2tco |so |1460 |2050 |840 7410 
IF 9.0 71.0 12120 |2300 268.0 1790.0 





SI 408.0 |1560.0|42820 |3575.0 |32400 13065.0 
silz |4ee0 |1081.0|25980 |29490 |21000 |91940 
VS1 |170.0 |6480 |35880 |19890 |17750 8171.0 
Vs2 |2810 |g780 |50710 |33570 |25910 |12258.0 
Ws1 |170 |1860 |20470 |6160 |7890 3655.0 

















Ws2 |690 |2860 |260e0 |8700 |12350 |50660 
总 计 |1610.0|4906.0|21551.0|13791.0 |12082.0 |53940.0 





























如 表 5-24 所 示 , 对 于 列 联 表 来 说 , 行 和 列 都 需要 指定 某 个 分 组 变量 , 所 以 index 参数 和 columns 
参数 都 需要 指定 一 个 分 组 变量 ， 并 且 统计 的 不 再 是 某 个 变量 的 均值 ， 而 是 观测 个 数 ， 所 以 aggfunc 
参数 需要 指定 numpy 模块 中 的 size 函数 。 通 过 这 样 的 参数 设置 ， 返 回 的 是 一 个 数据 框 对 象 ， 结 果 
与 Excel 透视 表 完 全 一 样 。 
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5.8 表 之 间 的 合并 与 连接 


在 学 习 或 工作 中 可 能 会 涉及 多 张 表 的 操作 ， 例 如 将 表 结构 相同 的 多 张 表 纵向 合并 到 大 表 中 ， 
或 者 将 多 张 表 的 字段 水 平 扩展 到 一 张 宽 表 中 。 如 果 你 对 数据 库 SQL 语言 比较 熟悉 的 话 ， 那 表 之 问 
的 合并 和 连接 就 非常 简单 了 。 对 于 多 张 表 的 合并 ， 只 需要 使 用 UNION 或 UNION ALL 关键 词 ; 对 
于 多 张 表 之 间 的 连接 ， 只 需要 使 用 INNER JOIN 或 者 LEFT JOIN 即 可 。 

如 果 读 者 对 表 的 合并 和 连接 并 不 是 很 熟悉 的 话 ， 可 以 查看 图 5-10。 上 图 为 两 表 之 问 的 纵向 合 
并 ， 下 图 为 两 表 之 间 的 水 平 扩展 并 且 为 左 连接 操作 。 

















擒 
李 由 25 女 | 二 |E 男 
ale sa les 
b | 列 男 
T- 3 女 
[Esk 女 赵 无 ”20 女 
赵 态 20 女 
和 Ee- 一 
本 1 科 月 1 1 科目 1 86 
2 25 2 科 Fl1 77 lb 2 25 国 汪 [ 和 目下 [7 
3 22 2 科目 2 89 2 25 科目 2 89 
4 23 4 科 有 1 81 3 22 NaN NaN 
4 23 科 月 1 81 


5-10 ”数据 合并 与 连接 的 预览 效果 


需要 注意 的 是 ， 对 于 多 表 之 间 的 纵向 合并 ， 必 须 确保 多 表 的 列 数 和 数据 类 型 一 致 ， 对 于 多 表 
之 间 的 水 平 扩展 , 必须 保证 多 表 要 有 共同 的 匹配 字段 (如 图 5-10 中 的 ID 变量 ) 。 图 5-10 中 的 NaN 
代表 缺失 ， 表 示 3 号 用 户 没有 对 应 的 考试 科目 和 成 绩 。 
Pandas 模块 同样 提供 了 关于 多 表 之 间 的 合并 和 连接 操作 函数 ， 分 别 是 concat 函数 和 merge 函 
首先 介绍 一 下 这 两 个 函数 的 用 法 和 重要 参数 含义 。 
(1) 合并 函数 concat 


数 


pd.concat (objs, axis=0, join='outer', join axes=None, ignore index=False, keys=None) 

日 objs: 指定 需要 合并 的 对 象 ， 可 以 是 序列 、 数 据 框 或 面板 数据 构成 的 列表 。 

® axis: 指定 数据 合并 的 轴 ， 默 认为 0， 表示 合并 多 个 数据 的 行 ， 如 果 为 1， 就 表示 合并 多 个 数 
据 的 列 。 

@ join: 指定 合并 的 方式 ， 默 认为 outer， 表 示 合 并 所 有 数据 ， 如 果 改 为 inner， 表 示 合 并 公共 部 
分 的 数据 。 

@ join _axes: 合并 数据 后 ， 指 定 保留 的 数据 轴 。 

@ jignore_ index: bool 类 型 的 参数 ,表示 是 否 忽略 原 数据 集 的 索引 , 默认 为 False, 如 果 设 为 True， 
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就 表示 忽略 原 索引 并 生成 新 索引 。 
日 keys: 为 合并 后 的 数据 添加 新 索引 ， 用 于 区 分 各 个 数据 部 分 。 


针对 合并 函数 concat， 需 要 强调 两 点 。 一 点 是 ， 如 果 纵 向 合并 多 个 数据 集 ， 即 使 这 些 数据 集 都 
含有 “姓名 ”变量 ， 但 变量 名 称 不 一 致 ， 如 Name 和 name， 通 过 合并 后 ， 将 会 得 到 错误 的 结果 。 
另 一 点 是 join_axes 参 数 的 使 用 , 例如 纵向 合并 两 个 数据 集 dfl 和 dP, 可 以 写成 pd.concat([dfl,df2])， 
如 果 该 参数 等 于 [dfl.index]， 就 表示 保留 与 dfl 行 标签 一 样 的 数据 ， 但 需要 配合 axis=1 一 起 使 用 ; 
如 果 等 于 [dfl.columns]， 就 保留 与 dfl 列 标签 一 样 的 数据 ， 但 不 需要 添加 axis=1 的 约束 。 下 面 举例 
说 明 concat 函数 的 使 用 : 

# 构造 数据 集 df1l 和 af2 

dfl = pd.DataFrame ({'name' :[' 张 三 ', ' 李 四 ', ' 王 二 ']，'age':[21,25,22], 

'gender' :[' 男 ', ' 女 ', ' 男 '] }) 
df2 = pd.DataFrame ({'name':[' 丁 一 '，' 赵 五 '] ，'age':[23,22]，'gender':[' 女 ', ' 女 ']}) 


# 数据 集 的 纵向 合并 
pd.concat([df1,df2] , keys = ['df1l','df2']) 





# 如 果 df2 数据 集中 的 “姓名 变量 为 Name” 

df2 = pd.DataFrame ({'Name':[' 丁 一 ', ' 赵 五 '] ，'age':[23,22]，'gender':[' 女 ', ' 女 ']}) 
# 数据 集 的 纵向 合并 

pd.concat ([df1,df2]) 


见 表 5-25。 
表 5-25 ”数据 的 合并 结果 








gender|name 





age|gender age 


























如 上 结果 所 示 , 为 了 区 分 合并 后 的 dfl 数据 集 和 df2 数据 集 , 代码 中 的 concat 函数 使 用 了 keys 
参数 ， 如 果 再 设置 参数 ignore_index 为 True， 此 时 keys 参数 将 不 再 有 效 。 如 上 右 表 所 示 ， 就 是 由 
两 个 数据 集 的 变量 名 称 不 一 致 (name 和 Name) 所 致 ， 最 终 产 生 错误 的 结果 。 

(2) 连接 函数 merge 

pd.merge (left, right, how='inner', on=None, left on=None, right on=None, 

left_index=False, right index=False, sort=False, suffixes=('_x', '_y')) 
left: 指定 需要 连接 的 主 表 。 
right: 指定 需要 连接 的 辅 表 。 
how: 指定 连接 方式 , 默认 为 inner 内 连 , 还 有 其 他 选项 , 如 左 连 left、 右 连 right 和 外 连 outer。 
on: 指定 连接 两 张 表 的 共同 字段 。 
left on: 指定 主 表 中 需要 连接 的 共同 字段 。 
right_ on: 指定 辅 表 中 需要 连接 的 共同 字段 。 
left_ index: bool 类 型 参数 ， 是 否 将 主 表 中 的 行 索引 用 作 表 连接 的 共同 字段 ， 默 认为 False。 
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@ right index: bool 类 型 参数 ， 是 否 将 辅 表 中 的 行 索引 用 作 表 连接 的 共同 字段 ， 默 认为 False。 

@ sort bool 类 型 参数 ， 是 否 对 连接 后 的 数据 按照 共同 字段 排序 ， 默 认为 False。 

日 ”sufixes: 如 果 数 据 连接 的 结果 中 存在 重合 的 变量 名 ， 则 使 用 各 自 的 前 组 进行 区 分 。 

该 函数 的 最 大 缺点 是 ， 每 次 只 能 操作 两 张 数据 表 的 连接 ， 如 果 有 n 张 表 需 要 连接 ， 则 必须 经 
过 mn-l 次 的 merge 函数 使 用 。 接 下 来 ， 为 了 读者 更 好 地 理解 merge 函数 的 使 用 ， 这 里 举例 说 明 : 


# 构造 数据 集 
df3 = pd.DataFrame ({'id' :[1,2,3,4,5],'name':[' 张 三 ', ' 李 四 "', ' 王 二 ', ' 丁 一 ', ' 赵 五 ']， 
ago st21 2472572372517"gonder yt 并 (i 
df4 = pd.DataFrame ({'Id':[1,2,2,4,4,4,5], 'score':[83,81,87,75,86,74,88] 
"kemu':[' 科 目 1',' 科 目 1',' 科 目 2',' 科 目 1',' 科 目 2',' 科 目 3', ' 科 目 1']}) 
df5 = pd.DataFrame ({'id':[1,3,5],'name':[' 张 三 ', ' 王 二 ', ' 赵 五 '] ， 
"income' : [13500,18000,15000]}) 
# 三 表 的 数据 连接 
# 首先 df3 和 df4 连接 
mergel = pd.merge (left = df3, right = df4, how = 'left', left on='id', right on='Id') 
mergel 
# 再 将 连接 结果 与 df5 连接 
merge2 = pd.merge (left = mergel, right = df5, how = 'left') 
merge2 


如 表 5-26 所 示 ， 就 是 构造 的 三 个 数据 集 ， 虽然 df3 和 df4 都 用 共同 的 字段 “编号 ”， 但 是 一 
个 为 4， 另 一 个 为 I 4， 所 以 在 后 面 的 表 连 接 时 需要 留意 共同 字段 的 写法 。 


表 5-26 数据 的 连接 结果 

















[age | gender id rame| | lia |kemu | score | [idjineemejname| 
of27 | 号 |1|#E= [ol [#81|s3 [of [13s00 [k= | 
引 24 | 男 |2 | 地 四 1|2 | 科目 1| 31 1|3 |18000 | 王 二 
3 2|5 | 15000 | 赵 五 
4 
ls| 











如 果 需 要 将 这 三 张 表 横向 扩展 到 一 张 宽 表 中 ， 需 要 经 过 两 次 merge 操作 。 如 上 代码 所 示 ， 第 
一 次 merge 连接 了 df3 和 df 从 , 由 于 两 张 表 的 共同 字段 不 一 致 , 所 以 需要 分 别 指定 left on 和 right_on 
的 参数 值 ， 第 二 次 merge 连接 了 首次 的 结果 和 df5， 此 时 并 不 需要 指定 left_on 和 right_on 参数 ， 是 
因为 第 一 次 的 merge 结果 就 包含 了 id 变量 ,所 以 merge 时 会 自动 挑选 完全 一 致 的 变量 用 于 表 连 接 。 
如 表 5-27 所 示 ， 就 是 经 过 两 次 merge 之 后 的 结果 ， 结 果 中 的 NaN 为 缺失 值 ， 表 示 无 法 匹配 的 值 。 
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表 5-27 数据 的 连接 结果 


age |gonder |id| name 1d |kemu|score age| gender id|namelia kemu score |income 

027 |s |1|¥= |10 |aa1|s30 1| 张 = |10 | 和 HB1|330 |135000 
四 |20 | 科 a1|s10 2 | 地 四 |20 | 科目 1|310 |NaN 

|2.0 | 科目 2|s7.0 2 | 李 四 |20 | 科目 2|37.0 |NaN 

3| 王 = 必 NaN |NaN Es 
4|JT— |40 | 科 B1|750 [NaN 
4|J— |40 [aB2|360 [NaN 
4|J— |40 |[#B3|740 [NaN 

s |an [so |ae1|ss0 [1s0000 

































SIololslolvI=TIs 
名 
翔 | 对 | 半 | 对 | 潮 酒 | 类 | 类 
































5.9 分 组 聚合 操作 


在 数据 库 中 还 有 一 种 非常 常见 的 操作 就 是 分 组 聚合 ， 即 根据 某 些 分 组 变量 ， 对 数值 型 变量 进 
行 分 组 统计 。 以 珠宝 数据 为 例 ， 统 计 各 颜色 和 刀 工 组 合 下 的 珠宝 数量 、 最 小 重量 、 平 均 价格 和 最 大 
面 宽 。 如 果 读 者 对 SQL 比较 熟悉 的 话 ， 可 以 写成 下 方 的 SQL 代码 ， 实 现 数据 的 统计 : 


SELECT color 

zcuUt 

"COUNT (*) RS counts 

7MIN (carat) RS min weight 

7RVG (price) AS avg price 

MAX (face width) RS max face width 
FROM diamonds 
GROUP BY color,cut; 


见 图 5-11。 
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SQL Server 查询 结果 


如 上 结果 所 示 ， 就 是 通过 SQL Server 完成 的 统计 ， 在 每 一 种 颜色 和 刀 工 的 组 合 下 ， 都 会 对 应 
4 种 统计 值 。 读 者 如 果 对 SQL 并 不 是 很 熟悉 ， 该 如 何 运用 Python 实现 数据 的 分 组 统计 呢 ? 其 实 也 
很 简单 ， 只 需 结合 使 用 Pandas 模块 中 的 groupby“ 方 法 ”和 aggregate“ 方 法 ”， 就 可 以 完美 地 得 
到 统计 结果 。 详 细 的 Python 代码 如 下 所 示 : 

# 通过 groupby 方法 ， 指 定 分 组 变量 


SdnRonvannndrnesd 
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grouped = diamonds.groupby(by = ['color', 'cut"']) 


# 对 分 组 变量 进行 统计 汇总 
result = grouped.aggregate({'color':np.size, 
"Price' :np.mean, 


result 


# 调整 变量 名 的 顺序 


"carat' :np.minyv 
"face width' :np.maxj) 


result = pd.DataFrame (result, columns=['color','carat','price','face width']) 


result 


# 数据 集 重 命名 


result.rename (columns={'color':'counts','carat':'min weight','price':'avg price', 
'face width':'max face width'}, inplace=True) 


result 


# 将 行 索引 转换 为 数据 框 的 变量 


result.reset index (inplace=True) 



































result 
见 表 5-28。 
表 5-28 ”Python 的 聚合 操作 结果 
counts| min_weight| avg_price | max_face_width color cut counts |min_weight avg_price |max_face_width 
Color out 9 |D Fair | 025 4291.061350|73.0 
rar J's |o2s [4291081350|730 1 love Jess lozs 54505352175|s60 
oe cele 2 |p |iseal |2834 |o2o 2629 094566 |62 0 
FE et 
WR ed ed 3 |p |Premum [1603 |o20 3631292576|620 
Premium | 1603 |020 831 292576 |620 
4 |D |very Good|1513 [023 3470.467284|64.0 
Ver Good 1513 |023 7284|540 
一 5 |E |Far |224 022 3682.312500|73.0 
Falr 24 |022 3 | | 
i 6 |E |Go0d 8 023 3423.644159|65.0 
E ldeal 3903 |o20 20 PE ldeal |3903 020 2597 550090|620 
re eT 6 8 |E |Premum |2337 |020 3538.914420|62 0 
Very Good| 2400 |520 3214 552083|550 9 |E |vey Gooad|2400 |020 3214.652083|650 





















































如 上 结果 所 示 , 与 SQL Server 形成 的 结果 完全 一 致 , 使 用 Pandas 实现 


〈 如 上 代码 所 示 ) 。 


分 组 聚合 需要 分 两 步 走 ， 
第 一 步 是 指定 分 组 变量 ， 可 以 通过 数据 框 的 groupby “方法” 完成， 第 二 步 是 对 不 同 的 数值 变量 计 
算 各 自 的 统计 值 。 在 第 二 步 中 ,需要 跟 读 者 说 明 的 是 , 必须 以 字典 的 形式 控制 变量 名 称 和 统计 函数 


通过 这 样 的 方式 可 以 实现 数值 变量 的 聚合 统计 ， 但 是 最 终 的 统计 结果 《〈 如 代码 中 的 第 一 次 返 








和 变量 名 的 名 称 〈 如 代码 中 的 第 三 次 返回 result) 。 

通过 几 次 的 修改 就 可 以 得 到 如 上 结果 中 的 左 半 部 分 。 细 心 的 读者 一 定 会 发 现 ， 分 组 变量 color 
和 cut 成 了 数据 框 的 行 索引 。 如 果 需 要 将 这 两 个 行 索 引 转换 为 数据 框 的 变量 名 ， 可 以 使 用 数据 框 的 
reset_index 方法 〈 如 倒数 第 二 行 代码 所 示 ) ， 


5.10 本章 小 结 


这 样 就 可 以 得 到 右 半 部 分 的 最 终结 果 。 





回 result) 可 能 并 不 是 你 所 预期 的 ， 例 如 数据 框 的 变量 顺序 发 生 了 改动 ， 变 量 名 应 该 是 统计 后 的 别 
名 ;为 了 保证 与 SQL Server 的 结果 一 致 ,需要 更 改 结果 的 变量 名 顺序 (如 代码 中 的 第 二 次 返回 


result) 


本 章 重 点 介绍 了 有 关 数 据 处 理 过 程 中 应 用 到 的 Pandas 模块 ， 内 容 涉 及 序列 与 数据 框 的 创建 、 
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外 部 数据 的 读 取 、 变 量 类 型 的 转换 与 描述 性 分 析 、 字 符 型 和 日 期 型 数据 的 处 理 、 常 用 的 数据 清洗 方 
法 、 数 据 子 集 的 生成 、 如 何 制 作 透 视 表 、 多 表 之 间 的 合并 与 连接 以 及 数据 集 的 分 组 聚合 。 通 过 本 章 
的 学 习 ,读者 可 以 掌握 数据 预 处 理 过 程 中 的 绝 大 部 分 知识 点 ,进而 为 之 后 的 数据 分 析 和 挖掘 做 铺垫 。 

由 于 内 容 比 较 多 ， 为 了 使 读者 清晰 地 掌握 本 章 所 涉及 的 函数 和 “方法 ”， 这 里 将 这 些 函 数 和 
“方法 ”重新 梳理 一 下 ， 以 便 读者 查阅 和 记忆 。 


























Python 模块 Python 函数 或 方法 函数 说 明 
Series 生成 序列 类 型 的 函数 
DataFrame 生成 数据 框 类 型 的 函数 
pandas read table 读 取 文本 文件 的 函数 ， 如 txt、csv 等 
read csv 读 取 文本 文件 的 函数 ， 如 txt、csv 等 
read_excel 读 取 电子 表格 的 函数 
connect 数据 库 与 Python 的 连接 函数 
as close 关闭 数据 库 与 Python 之 问 连接 的 “方法 ” 
read_sql 读 取 数据 库 数 据 的 函数 
head/tail 显示 数据 框 首 / 末 儿 行 的 “方法 ” 
shape 返回 数据 框 行列 数 的 “方法 ” 
dtypes 返回 数据 框 中 各 变量 数据 类 型 的 “方法 ” 
to_datetime 将 变量 转换 为 日 期 时 间 型 的 函数 
astype 将 变量 转换 为 其 他 类 型 的 “方法 ” 
describe 统计 性 描述 的 “方法 ” 
columns 返回 数据 框 变 量 名 的 “方法 ” 
index 返回 数据 框 行 索引 的 “方法 ” 
apply 序列 或 数据 框 的 映射 “方法 ” 
value_counts 序列 值 频次 统计 的 “方法 ” 
Teset_ index 将 行 索引 转换 为 变量 的 “方法 ” 
duplicated 检验 观测 是 否 重复 的 “方法 ” 
pandas 





drop_duplicates 


删除 重复 项 的 “方法 ” 





























drop 删除 变量 名 或 观测 的 “方法 ” 
dropna 删除 缺失 值 的 “方法 ” 

fillna 填充 缺失 值 的 “方法 ” 
quantile 统计 序列 分 位 数 的 “方法 ” 
plot 序列 或 数据 框 的 绘图 “方法 ” 
iloc/loc/ix 数据 框 子 集 获取 的 “方法 ” 
pivot table 构建 透视 表 的 函数 

concat 实现 多 表 纵 向 合并 的 函数 
merge 实现 两 表 水 平 扩展 的 函数 
groupby 分 组 聚合 时 ， 指 定 分 组 变量 的 “方法 ” 
aggregate 指定 聚合 统计 的 “方法 ” 
Tename 修改 数据 框 变量 名 的 “方法 ” 








Python 数据 可 视 化 


“ 文 不 如 字 ， 字 不 如 表 ， 表 不 如 图 ”， 说 的 就 是 可 视 化 的 重要 性 。 从 事 与 数据 相关 的 工作 者 
经 常会 作 一 些 总 结 或 展望 性 的 报告 ,如 果 报 告 中 密密麻麻 都 是 文字 , 相信 听众 或 者 老板 一 定 会 厌烦 ; 
如 果 报 告 中 呈现 的 是 大 量 的 图 形 化 结果 ， 就 会 受到 众人 的 喜爱 ， 因 为 图 形 更 加 直观 、 醒 目 。 

本 章 内 容 的 重点 就 是 利用 Python 绘制 常见 的 统计 图 形 , 例如 条 形 图 、 饼 图 、 直方 图 、 折线 图 、 
散 点 图 等 ， 通 过 这 些 常用 图 形 的 展现 ， 将 复杂 的 数据 简单 化 。 这 些 图 形 的 绘制 可 以 通过 matplotlib 
模块 、pandas 模块 或 者 seabomn 模块 实现 。 通 过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 以 下 几 个 方面 的 知 
识 点 : 
离散 型 数据 都 有 哪些 可 用 的 可 视 化 方法 ; 
数值 型 的 单 变量 可 用 哪些 图 形 展现 ; 

多 维 数值 之 间 的 关系 表达 ; 
如 何 将 多 个 图 形 绘制 到 一 个 画 框 内 。 


6.1 离散 型 变量 的 可 视 化 


如 果 你 需要 使 用 数据 可 视 化 的 方法 来 表达 离散 型 变量 的 分 布 特征 ， 例 如 统计 某 APP 用 户 的 性 
别 比 例 、 某 产品 在 各 区 域 的 销售 量 分 布 、 各 年 龄 段 内 男女 消费 者 的 消费 能 力 差异 等 。 对 于 类 似 这 些 
离散 型 变量 的 统计 描述 ， 可 以 使 用 饼 图 或 者 条 形 图 对 其 进行 展现 。 接 下 来 , 通过 具体 的 案例 来 学 习 
饼 图 和 条 形 图 的 绘制 ， 进 而 掌握 Python 的 绘图 技能 。 





6.1.1 饼 图 


饼 图 属于 最 传统 的 统计 图 形 之 一 〈1801 年 由 William Playfair 首次 发 布 使 用 ) ， 它 几乎 随处 可 
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见 ， 例 如 大 型 公司 的 屏幕 墙 、 各 种 年 度 论坛 的 演示 稿 以 及 各 大 媒体 发 布 的 数据 统计 报告 等 。 

首先 ， 需 要 读者 了 解 有 关 饼 图 的 原理 。 饼 图 是 将 一 个 圆 分 割 成 不 同 大 小 的 攀 形 ， 而 圆 中 的 每 
一 个 枢 形 代表 了 不 同 的 类 别 值 ， 通 常会 根据 攀 形 的 面积 大 小 来 判断 类 别 值 的 差异 。 如 图 6-1 所 示 ， 
就 是 一 个 由 不 同 大 小 的 模 形 组 成 的 饼 图 。 














销售 额 


时 第 一 和 区 
曙 第 全 并 
本 第 二 不 席 
于 第 风光 六 





图 6-1 饼 图 示意 图 


对 于 这 样 的 饼 图 ， 该 如 何 通 过 Python 完成 图 形 的 绘制 呢 ? 其 实 很 简单 ， 通 过 matplotlib 模块 
和 pandas 模块 都 可 以 非常 方便 地 得 到 一 个 漂亮 的 饼 图 。 下 面 举例 说 明 如 何 利用 Python 实现 饼 图 的 
绘制 。 
1. matplotlib 模块 
如 果 你 选择 matplotlib 模块 绘制 饼 图 的 话 ， 首 先 需要 导入 该 模块 的 子 模块 pyplot， 然 后 调用 模 
块 中 的 pie 函数 。 关 于 该 函数 的 语法 和 参数 含义 如 下 : 
pie (x，explode=None， labels=None, colors=None, 
autopct=None, pctdistance=0.6, shadow=False, 
labeldistance=1.1, startangle=None, 
radius=None, counterclock=True, wedgeprops=None, 
textprops=None, center=(0, 0), frame=False) 
9 ”x: 指定 绘图 的 数据 。 
@ ”explode: 指定 饼 图 某 些 部 分 的 突出 显示 ， 即 呈现 爆炸 式 。 
日 labels: 为 饼 图 添加 标签 说 明 ， 类 似 于 图 例 说 明 。 
@ colors: 指定 饼 图 的 填充 色 。 
@ ”autopct: 自动 添加 百分比 显示 ， 可 以 采用 格式 化 的 方法 显示 。 
@ pctdistance: 设置 百分比 标签 与 圆心 的 距离 。 
@ ”shadow: 是 否 添加 饼 图 的 阴影 效果 。 
”labeldistance: 设置 各 扇形 标签 (图例) 与 圆心 的 距离 。 
estartangle: 设置 饼 图 的 初始 摆 放 角度 。 
@ _ radius: 设置 饼 图 的 半径 大 小 。 
®@ ”counterclock: 是 否 让 饼 图 按 逆 时 针 顺序 呈现 。 
e。 wedgeprops: 设置 饼 图 内 外 边界 的 属性 ， 如 边界 线 的 粗细 、 颜 色 等 。 
@ ”textprops: 设置 饼 图 中 文本 的 属性 ， 如 字体 大 小 、 颜 色 等 。 
® center: 指定 饼 图 的 中 心 点 位 置 ， 默 认为 原点 。 
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@ frame: 是 否 要 显示 饼 图 背后 的 图 框 ， 如 果 设 置 为 True 的 话 ， 需 要 同时 控制 图 框 x 轴 、y 轴 的 
范围 和 饼 图 的 中 心 位 置 。 


该 函数 的 参数 虽然 比较 多 , 但 是 应 用 起 来 非常 灵活 ,而且 绘制 的 饼 图 也 比较 好 看 。 下 面 以 “ 芝 
麻 信 用 ”失信 用 户 数 据 为 例 (数据 来 源 于 财 新 网 ) ， 分 析 近 300 万 失信 人 和 群 的 学 历 分 布 ， pie 函数 
绘制 饼 图 的 详细 代码 如 下 : 

# 导入 第 三 方 模块 

import matplotlib.pyplot as plt 

# 构造 数据 

edu = [0.2515,0.3724,0.3336,0.0368,0.0057] 

labels = [" 中 专 '，' 大 专 '， "本科 '，' 硕 士 "，' 其 他 '] 


# 绘制 饼 图 
plt.pie (x = edu，# 绘图 数据 
labels=labe1ls，# 添加 教育 水 平 标签 
autopct="'%.1f%%' ## 设置 百分比 的 格式 ， 这 里 保留 一 位 小 数 


) 
# 显示 图 形 
Plt.show() 


见 图 6-2。 





* 科 
图 6-2 Matplotlib 库 绘制 的 饼 图 


图 6-2 所 示 就 是 一 个 不 加 任何 修饰 的 饼 图 。 这 里 只 给 pie 函数 传递 了 三 个 核心 参数 ， 即 绘图 的 
数据 、 每 个 数据 代表 的 含义 〈 学 历 标签 ) 以 及 给 饼 图 添加 数值 标签 。 很 显然 ， 这 样 的 饼 图 并 不 是 很 
完美 ， 例 如 饼 图 看 上 去 并 不 成 正 圆 、 饼 图 没有 对 应 的 标题 、 没 有 突出 显示 饼 图 中 的 某 个 部 分 等 。 下 
面 进一步 对 该 饼 图 做 一 些 修饰 ， 尽 可 能 让 饼 图 看 起 来 更 加 舒服 ， 代 码 如 下 : 

explode = [0,0.1,0,0,0] # 生成 数据 ， 用 于 突出 显示 大 专 学 历 人 群 

colors=['#9999ff', '#ff9999', '#7777aa', '#2442aa', '#dd5555'] ## 自 定义 颜色 


# 中 文 乱码 和 坐标 轴 负 号 的 处 理 
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 


# 将 横 、 纵 坐标 轴 标 准 化 处 理 ， 确 保 饼 图 是 一 个 正 圆 ， 否 则 为 椭圆 
plt.axes (aspect='equal') 

# 绘制 饼 图 

plt.pie (x = edu，# 绘图 数据 
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explode=explode，# 突出 显示 大 专人 群 

labels=labels，# 添加 教育 水 平 标签 

colors=colors，# 设置 饼 图 的 自 定义 填充 色 

autopct='%.1f%%"， 间 设置 百分比 的 格式 ， 这 里 保留 一 位 小 数 
pctdistance=0.8， # 设置 百分比 标签 与 圆心 的 距离 

labeldistance = 1.1，# 设置 教育 水 平 标签 与 圆心 的 距离 

startangle = 180，# 设置 饼 图 的 初始 角度 

radius = 1.2，# 设置 饼 图 的 半径 

counterclock = False，# 是 否 道 时 针 ， 这 里 设置 为 顺 时 针 方 向 

wedgeprops = {'linewidth': 1.5，'edgecolor' :'green'},# 设置 饼 图 内 外 边界 的 属性 值 
textprops = {'fontsize':10，'color':'black'}，# 设置 文本 标签 的 属性 值 


) 
# 添加 图 标题 
plt.title(' 失 信用 户 的 受 教育 水 平分 布 ') 
# 显示 图 形 
Plt.show() 


见 图 6-3。 


失信 用 户 的 受 教育 水 平分 布 





和 


6-3 ”matplotlib 库 绘制 的 饼 图 


如 上 呈现 的 饼 图 , 直观 上 要 比 之 前 的 饼 图 好 看 很 多 , 这 些 都 是 基于 pie 函数 的 灵活 参数 所 实现 
的 。 饼 图 中 突出 显示 大 专 学 历 的 人 群 ， 是 因为 在 这 300 万 失信 人 和 群 中 ， 大 专 学 历 的 人 数 比例 最 高 ， 
该 功能 就 是 通过 explode 参数 完成 的 。 另 外 ， 还 需要 对 如 上 饼 图 的 绘制 说 明 几 点 : 
日 “如果 绘制 的 图 形 中 涉及 中 文 及 数字 中 的 负 号 ， 都 需要 通过 rcParams 进行 控制 。 
由 于 不 加 修饰 的 饼 图 更 像 是 一 个 椭圆 ,所 以 需要 pyplot 模 块 中 的 axes 函数 将 椭圆 强制 为 正 圆 。 
自 定义 颜色 的 设置 , 既 可 以 使 用 十 六 进 制 的 颜色 , 也 可 以 使 用 具体 的 颜色 名 称 ， 如 red、black 
等 。 
”如果 需要 添加 图 形 的 标题 ， 需 要 调用 pyplot 模块 中 的 title 函数 。 
@ ”代码 pltshow() 用 来 呈现 最 终 的 图 形 ， 无 论 是 使 用 Jupyter 或 Pycharm 编辑 器 ， 都 需要 使 用 这 
行 代码 呈现 图 形 。 
2. pandas 模块 
细心 的 读者 一 定 会 发 现 ， 在 前 面 的 几 个 章节 中 或 多 或 少 地 应 用 到 pandas 模块 的 绘图 “方法 ” 
plot, 该 方法 可 以 针对 序列 和 数据 框 绘制 常见 的 统计 图 形 , 例如 折线 图 、 条 形 图 、 直 方 图 、 箱 线 图 、 
核 密度 图 等 。 同 样 , plot 也 可 以 绘制 饼 图 , 接 下 来 简单 介绍 一 下 该 方法 针对 序列 的 应 用 和 参数 含义 : 
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Series.plot (kind='line', ax=None, figsize=None, use index=True, title=None, 
grid=None, legend=False, style=None, logx=False, logy=False, 
loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, 
rot=None, fontsize=None, colormap=None, table=False, yerr=None, 
xerr=None, label=None, secondary y=False, **kwds) 


@ kind: 指定 一 个 字符 囊 值 ， 用 于 绘制 图 形 的 类 型 ， 默认 为 折线 图 line。 还 可 以 绘制 重 直 条 形 图 
bar、 水 平 条 形 图 hbar、 直 方 图 hist、 箱 线 图 box、 核 密度 图 kde、 面 积 图 area 和 饼 图 pie。 

@ ”ax: 控制 当前 子 图 在 组 图 中 的 位 置 。 例如 ， 在 一 个 2x2 的 图 形 和 矩阵 中 ,通过 该 参数 控制 当前 

图 形 在 矩阵 中 的 位 置 。 

figsize: 控制 图 形 的 宽度 和 高 度 ， 以 元 组 形式 传递 ， 好 (width,hright)。 

use_index: bool 类 型 的 参数 ， 是 否 将 序列 的 行 索引 用 作 x 轴 的 刻度 ， 默 认为 True。 

tile: 用 以 添加 图 形 的 标题 。 

grid: bool 类 型 的 参数 ， 是 否 给 图 形 添加 网 格 线 ， 默 认为 False。 

legend: bool 类 型 的 参数 ， 是 否 添加 子 图 的 图 例 ， 默 认为 False。 

style: 如 果 kind 为 line， 该 参数 可 以 控制 折线 图 的 线条 类 型 。 

logx: bool 类 型 的 参数 ， 是 否 对 x 轴 做 对 数 变换 ， 默 认为 False。 

logy: bool 类 型 的 参数 ， 是 否 对 y 轴 做 对 数 变换 ， 默 认为 False。 

loglog: bool 类 型 的 参数 ， 是 否 同时 对 x 轴 和 y 轴 做 对 数 变 换 ， 默 认为 False。 

xticks: 用 于 设置 x 轴 的 刻度 值 。 

yticks: 用 于 设置 y 轴 的 刻度 值 。 

xlim: 以 元 组 或 列表 的 形式 ,设置 x 轴 的 取 值 范围 ， 如 (0,3) 表 示 x 轴 落 在 0~3 的 范围 之 内 。 

ylim: 以 元 组 或 列表 的 形式 ,设置 y 轴 的 取 值 范围 。 

rot: 接受 一 个 整数 值 ， 用 于 旋转 刻度 值 的 角度 。 

fontsize: 接受 一 个 整数 ， 用 于 控制 x 轴 与 y 轴 刻 度 值 的 字体 大 小 。 

colormap: 接受 一 个 表示 颜色 含义 的 字符 串 ， 或 者 Python 的 色彩 映射 对 象 ， 该 参数 用 于 设置 

图 形 的 区 域 颜 色 。 

table: 该 参数 如 果 为 True， 表 示 在 绘制 图 形 的 基础 上 再 添加 数据 表 ; 如 果 传递 的 是 序列 或 数 

据 框 ， 则 根据 数据 添加 数据 表 。 

yerr: 如 果 kind 为 bar 或 hbbar， 该 参数 表示 在 条 形 图 的 基础 上 添加 误差 棒 。 

xerr: 含义 同 yerr 参数 。 

label: 用 于 添加 图 形 的 标签 。 

secondary_y: bool 类 型 的 参数 ， 是 否 添 加 第 二 个 y 轴 ， 默 认为 False。 

**kwds: 关键 字 参 数 ， 该 参数 可 以 根据 不 同 的 kind 值 ， 为 图 形 添加 更 多 的 修饰 性 参数 ( 依赖 

于 pyplot 中 的 绘图 函数 )。 


pandas 模块 中 的 plot“ 方 法 ”可 以 根据 kind 参数 绘制 不 同 的 统计 图 形 ， 而 且 也 包含 了 其 他 各 
种 灵活 的 参数 。 除 此 ， 根 据 不 同 的 kind 参数 值 ， 可 以 调用 更 多 对 应 的 关键 字 参 数 **kwds， 这 些 关 
键 字 参 数 都 源 于 pyplot 中 的 绘图 函数 。 

为 了 帮助 读者 更 好 地 理解 plot 方法 绘制 的 统计 图 形 ， 这 里 仍然 以 失信 用 户 数据 为 例 ， 绘 制 学 
历 的 分 布 饼 图 ， 详 细 代 码 如 下 : 
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# 导入 第 三 方 模块 
import pandas as pd 


# 构建 序列 
datal = pd.Series({' 中 专 ' :0.2515, "大专 ':0.3724, ' 本 科 ' :0.3336, ' 硕 士 ' :0.0368, ' 其 他 ' :0.0057}) 
# 将 序列 的 名 称 设置 为 空 字 符 ， 否 则 绘制 的 饼 图 左边 会 出 现 None 这 样 的 字眼 
datal.name = '" 
# 控制 饼 图 为 正 贺 
plt.axes(aspect = "equal') 
# plot 方法 对 序列 进行 绘图 
datal.plot (kind = 'pie'，# 选择 图 形 类 型 
autopct='gs.1Ifs%"，# 饼 图 中 添加 数值 标签 
radius = 1，# 设置 饼 图 的 半径 
startangle = 180，# 设置 饼 图 的 初始 角度 
counterclock = False，# 将 饼 图 的 顺序 设置 为 顺 时 针 方向 
title = "失信 用 户 的 受 教育 水 平分 布 '，# 为 饼 图 添加 标题 
wedgeprops = {'linewidth': 1.5，'edgecolor':'green'}，# 设置 饼 图 内 外 边界 的 属性 值 
textprops = {'fontsize':10，'color':'black'} # 设置 文本 标签 的 属性 值 


) 
# 显示 图 形 
plt.show() 


见 图 6-4。 


失信 用 户 的 受 教育 水 平分 布 
了 








村 


图 64 ”pandas 库 绘制 的 饼 图 
如 图 6-4 所 示 ， 应 用 pandas 模块 中 的 plot 方法 ， 也 可 以 得 到 一 个 比较 好 看 的 饼 图 。 该 方法 中 


除了 kind 参数 和 title 参数 属于 plot 方法 ， 其 他 参数 都 是 pyplot 模块 中 pie 函数 的 参数 ， 并 且 以 关 
键 字 参数 的 形式 调用 。 


6.1.2 条 形 图 


虽然 饼 图 可 以 很 好 地 表达 离散 型 变量 在 各 水 平 上 的 差异 〈 如 会 员 的 性 别 比例 、 学 历 差异 、 等 


级 高 低 等 )， 但 是 其 不 擅长 对 比 差 异 不 大 或 水 平 值 过 多 的 离散 型 变量 ， 因 为 饼 图 是 通过 各 槐 形 面积 
的 大 小 来 表示 数值 的 高 低 , 而 人 类 对 扇形 面积 的 比较 并 不 是 特别 敏感 。 如 果 读 者 手中 的 数据 恰好 不 
适合 用 饼 图 展现 ， 可 以 选择 另 一 种 常用 的 可 视 化 方法 ， 即 条 形 图 。 


以 垂直 条 形 图 为 例 ， 离 散 型 变量 在 各 水 平 上 的 差异 就 是 比较 柱 形 的 高 低 ， 柱 体 越 高 ， 代 表 的 
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数值 越 大 ， 反 之 亦 然 。 在 Python 中 ， 可 以 借助 matplotlib、pandas 和 seaborn 模块 完成 条 形 图 的 绘 


制 。 


下 面 将 采用 这 三 个 模块 绘制 条 形 图 。 
1. matplotlib 模块 
应 用 matplotlib 模块 绘制 条 形 图 ， 需 要 调用 bar 函数 ， 关 于 该 函数 的 语法 和 参数 含义 如 下 : 


bar(left, height, width=0.8, bottom=None, color=None, edgecolor=None, 
linewidth=None, tick label=None, xerr=None, yerr=None, 
label = None, ecolor=None, align, log=False, **kwargs) 


left: 传递 数值 序列 ， 指 定 条 形 图 中 x 轴 上 的 刻度 值 。 

height: 传递 数值 序列 ， 指 定 条 形 图 y 轴 上 的 高 度 。 

width: 指定 条 形 图 的 宽度 ， 默 认为 0.8。 

bottom: 用 于 绘制 堆肥 条 形 图 。 

color: 指定 条 形 图 的 填充 色 。 

edgecolor: 指定 条 形 图 的 边框 色 。 

linewidth: 指定 条 形 图 边框 的 宽度 ， 如 果 指定 为 0， 表示 不 绘制 边框 。 
tick_label: 指定 条 形 图 的 刻度 标签 。 

Xerr: 如 果 参 数 不 为 None， 表 示 在 条 形 图 的 基础 上 添加 误差 棒 。 

yerr: 参数 含义 同 xerr。 

label: 指定 条 形 图 的 标签 ， 一 般 用 以 添加 图 例 。 

ecolor: 指定 条 形 图 误差 棒 的 颜色 。 

align: 指定 x 轴 刻 度 标签 的 对 齐 方式 ， 默 认为 center， 表 示 刻 度 标签 居中 对 齐 ， 如 果 设置 为 
edge， 则 表示 在 每 个 条 形 的 左下 角 呈 现 刻度 标签。 

log: bool 类 型 参数 ， 是 否 对 坐标 轴 进 行 log 变换 ， 默 认为 False。 
##kwargs: 关键 字 参 数 ， 用 于 对 条 形 图 进行 其 他 设置 ， 如 透明 度 等 。 


bar 函数 的 参数 同样 很 多 ， 和 希望 读者 能 够 认真 地 掌握 每 个 参数 的 含义 ， 以 便 使 用 时 得 心 应 手 。 


下 面 将 基于 该 函数 绘制 三 类 条 形 图 , 分别 是 单 变量 的 垂直 或 水 平 条 形 图 、 堆 登 条 形 图 和 水 平 交 错 条 
形 图 。 


(1) 垂直 或 水 平 条 形 图 
首先 来 绘制 单个 离散 变量 的 垂直 或 水 平 条 形 图 ， 数 据 来 源 于 互联 网 ， 反 映 的 是 2017 年 中 国 六 


大 省 份 的 GDP， 绘 图 代码 如 下 : 


# 读 入 数据 
GDP = pd.read excel(r'C:\Users\Administrator\Desktop\Province GDP 2017.xlsx') 
# 设置 绘图 风格 (不 妨 使 用 RR 语言 中 的 ggplot2 风格 ) 
plt.style.use('ggplot') 
# 绘制 条 形 图 
plt.bar (left = range(GDP.shape[0])，# 指定 条 形 图 x 轴 的 刻度 值 
height = GDP.GDP，# 指定 条 形 图 y 轴 的 数值 
tick label = GDP.Province，# 指定 条 形 图 x 轴 的 刻度 标签 
color = 'steelblue'，# 指定 条 形 图 的 填充 色 


) 
# 添加 y 轴 的 标签 


第 6 章 Python 数据 可 视 化 | 117 





plt.ylabel ('GDP( 万 亿 ) ') 
# 添加 条 形 图 的 标题 
plt.title('2017 年 度 6 个 省 份 GDP 分 布 ') 
# 为 每 个 条 形 图 添加 数值 标签 
for x,y in enumerate(GDP.GDP): 
plt.text (x,y+0.1,'%s' Sround(y,1),ha='center') 
# 显示 图 形 
plt.show() 
见 图 6-5。 
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6-5 ”matplotlib 库 绘制 的 垂直 条 形 图 


如 图 6-5 所 示 ， 该 条 形 图 比较 清晰 地 反映 了 6 个 省 份 GDP 的 差异 。 针 对 如 上 代码 需要 做 几 点 
解释 : 


@ 条 形 图 中 灰色 网 格 的 背景 是 通过 代码 plt.style.use('ggplot) 实 现 的 , 如 果 不 添加 该 行 代码 , 则 条 
形 图 为 白 底 背景 。 

”如果 添加 图 形 的 x 轴 或 y 轴 标签 ， 需 要 调用 pyplot 子 模块 中 的 xlab 和 ylab 函数 。 

@ ”由 于 bar 函数 没有 添加 数值 标签 的 参数 ,因此 使 用 for 循环 对 每 一 个 柱 体 添加 数值 标签 , 使 用 
的 核心 函数 是 pyplot 子 模块 中 的 text， 该 函数 的 参数 很 简单 ， 前 两 个 参数 用 于 定位 字符 在 图 
形 中 的 位 置 ， 第 三 个 参数 表示 呈现 的 具体 字符 值 ， 第 四 个 参数 为 ha， 表示 字符 的 水 平 对 齐 方 
式 为 居中 对 齐 。 


站 在 阅读 者 的 角度 来 看 ， 该 条 形 图 可 能 并 不 是 很 理想 ， 因 为 不 能 快速 地 发 现 哪个 省 份 GDP 最 
高 或 最 低 。 如 果 将 该 条 形 图 进行 降序 或 升序 处 理 ， 可 能 会 更 直观 一 些 。 这 里 就 以 水 平 条 形 图 为 例 ， 
代码 如 下 : 

# 对 读 入 的 数据 做 升序 排序 


GDP. sort_values(by = 'GDP', inplace = True) 

# 绘制 条 形 图 

plt.barh (bottom = range(GDP.shape[0])，# 指定 条 形 图 y 轴 的 刻度 值 
width = GDP.GDP，# 指定 条 形 图 x 轴 的 数值 
tick_label = GDP.Province，# 指定 条 形 图 y 轴 的 刻度 标签 
color = 'steelblue'，# 指定 条 形 图 的 填充 色 


GDP 人 万 人 





) 
# 添加 x 轴 的 标签 
plt.xlabel ('GDP( 万 亿 )') 
# 添加 条 形 图 的 标题 
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Plt.title("2017 年 度 6 个 省 份 SDP 分 布 ') 
# 为 每 个 条 形 图 添加 数值 标签 
for y,x in enumerate (GDP.GDP): 
plt.text (x+0.1,y,'%s' %round(x,1),va='center') 
# 显示 图 形 
plt.show() 


见 图 6-6。 
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图 6-6 matplotlib 库 绘制 的 水 平 条 形 图 


图 6-6 所 示 就 是 经 过 排序 的 水 平 条 形 图 (实际 上 是 垂直 条 形 图 的 轴 转 置 )。 需 要 注意 的 是 , 水 
平 条 形 图 不 再 是 bar 函数 ， 而 是 barh 函数 。 读 者 可 能 疑惑 ， 为 什么 对 原始 数据 做 升序 排序 ， 但 是 
图 形 看 上 去 是 降序 (从 上 往 下 ) ? 那 是 因为 水 平 条 形 图 的 y 轴 刻 度 值 是 从 下 往 上 布置 的 ， 所 以 条 形 
图 从 下 往 上 是 满足 升序 的 。 


(2) 堆 生 条 形 图 


正如 前 文 所 介绍 的 ， 不 管 是 垂直 条 形 图 还 是 水 平 条 形 图 ， 都 只 是 反映 单个 离散 变量 的 统计 图 
形 , 如 果 想 通过 条 形 图 传递 两 个 离散 变量 的 信息 该 如 何 做 到 ? 相信 读者 一 定 见 过 堆 登 条 形 图 , 该 类 
型 条 形 图 的 横 坐 标 代表 一 个 维度 的 离散 变量 ， 堆 彼 起 来 的 “ 块 ”代表 了 另 一 个 维度 的 离散 变量 。 这 
样 的 条 形 图 ， 最 大 的 优点 是 可 以 方便 比较 累积 和 ， 那 这 种 条 形 图 该 如 何 通 过 Python 绘制 呢 ? 这 里 
以 2017 年 四 个 季度 的 产业 值 为 例 〈 数 据 来 源 于 中 国 统计 局 ) ， 绘 制 堆 盖 条 形 图 ， 详 细 代 码 如 下 : 


# 读 入 数据 

Industry GDP = pd.read excel(r'C:\Users\Administrator\Desktop\Industry_GDP.xlsx') 
# 取出 四 个 不 同 的 季度 标签 ， 用 作 堆 登 条 形 图 x 轴 的 刻度 标签 

Quarters = Industry_GDP.Ouarter.unique () 

# 取出 第 一 产业 的 四 季度 值 

Industryl = Industry GDP.GPD[Industry GDP.Industry Type == ' 第 一 产业 '] 
# 重新 设置 行 索引 

Industryl.index = range(len(Quarters)) 

# 取出 第 二 产业 的 四 季度 值 

Industry2 = Industry_GDP.GPD[Industry_GDP.Industry_Type 一 ' 第 二 产业 '] 
# 重新 设置 行 索引 

Industry2.index = range(len(Quarters)) 

# 取出 第 三 产业 的 四 季度 值 

Industry3 = Industry_GDP.GPD[Industry_GDP.Industry_Type 一 "第 三 产业 '] 
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# 绘制 堆 到 条 形 图 

# 各 季度 下 第 一 产业 的 条 形 图 

plt.bar (left = range (len(Quarters)), height=Industryl, color = 'steelblue'， label = ' 第 一 产 
业 ', tick label = Quarters) 

# 各 季度 下 第 二 产业 的 条 形 图 

plt.bar (left = range(len (Quarters)), height=Industry2, bottom = Industryl, color = 'green', 
label = ' 第 二 产业 ') 

# 各 季度 下 第 三 产业 的 条 形 图 

plt.bar (left = range (len (Quarters)), height=Industry3, bottom = Industryl + Industry2, color 
= 'red'，label = ' 第 三 产业 ') 

# 添加 Y 轴 标签 

plt.ylabel ('" 生 成 总 值 ( 亿 ) ') 

# 添加 图 形 标题 

plt.title('2017 年 各 季度 三 产业 总 值 ') 

# 显示 各 产业 的 图 例 

plt.legend() 

# 显示 图 形 

plt.show() 


见 图 6-7。 
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图 6-7 a 绘制 的 堆 登 条 形 图 


如 上 就 是 一 个 典型 的 扒 赤 条 形 图 ， 虽 然 绘图 的 代码 有 些 偏 长 ， 但 是 其 思想 还 是 比较 简单 的 ， 
就 是 分 别针 对 三 种 产业 的 产值 绘制 三 次 条 形 图 。 需要 注意 的 是 , 第 二 产业 的 条 形 图 是 在 第 一 产业 的 
基础 上 做 了 三 加 ， 故 需要 将 bottom 参数 设置 为 Industry1; 而 第 三 产业 的 条 形 图 又 是 县 加 在 第 一 和 
第 二 产业 之 上 ， 所 以 需要 将 bottom 参数 设置 为 Industry1+ Industry2。 

读者 可 能 疑惑 ， 通 过 条 件 判 断 将 三 种 产业 的 值 (Industry1、Industry2、Industry3) 分 别 取出 来 
后 , 为 什么 还 要 重新 设置 行 索 引 ? 那 是 因为 各 季度 下 每 一 种 产业 值 前 的 行 索引 都 不 相同 , 这 就 导致 
无 法 进行 Industry1+ Industry2 的 和 计算 (读者 不 妨 试 试 不 改变 序列 Industryl 和 Industry2 的 行 索引 
的 后 果 ) 。 

(3 ) 水 平 交错 条 形 因 


堆 登 条 形 图 可 以 包含 两 个 离散 变量 的 信息 ， 而 且 可 以 比较 各 季度 整体 产值 的 高 低 水 平 ， 但 是 
其 缺点 是 不 易 区 分 “ 块 ” 之 间 的 差异 ， 例 如 二 、 三 季度 的 第 三 产业 值 差异 就 不 是 很 明显 ， 区 分 高 低 
就 相对 困难 。 而 交错 条 形 图 恰好 就 可 以 解决 这 个 问题 ， 该 类 型 的 条 形 图 就 是 将 堆 登 的 “ 块 ” 水 平 排 
开 ， 如 想 绘制 这 样 的 条 形 图 ， 可 以 参考 下 方 代码 (数据 来 源 于 胡 润 财富 榜 ， 反 映 的 是 5 个 城市 亿 万 
资产 超 高 净值 家 庭 数 ) : 
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# 导入 第 三 方 模块 
import numpy as np 


# 读 入 数据 

HuRun = pd.read excel(r'C:\Users\Administrator\Desktop\HuRun.xlsx') 
# 取出 城市 名 称 

Cities = HuRun.City.unique() 

# 取出 2016 年 各 城市 亿 万 资产 家 庭 数 

Counts2016 = HuRun.Counts [HuRun .Year == 2016] 

# 取出 2017 年 各 城市 亿 万 资产 家 庭 数 

Counts2017 = HuRun.Counts [HuRun.Year == 2017] 


# 绘制 水 平 交 错 条 形 图 

bar width = 0.4 

plt.bar(left=np.arange (len(Cities)), height =Counts2016, label= '2016', color = 'steelblue', 
width = bar width) 

plt.bar(left = np.arange (len(Cities))+bar width, height = Counts2017, label = '2017', color 
= 'indianred', width = bar width) 

# 添加 刻度 标签 (向 右 偏 移 0 .2) 

plt.xticks (np.arange(5)+0.2, Cities) 


# 添加 图 例 
plt.legend() 
# 显示 图 形 
plt.show() 
见 图 6-8。 
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图 6-8 ”matplotlib 库 绘制 的 水 平 交错 条 形 图 


图 6-8 反映 的 是 2016 年 和 2017 年 5 大 城市 亿 万 资产 家 庭 数 的 条 形 图 , 可 以 很 好 地 比较 不 同年 
份 下 的 差异 。 例 如 ， 这 5 个 城市 中 ，2017 年 的 亿 万 资产 家 庭 数 较 2016 年 都 有 所 增加 。 
但 是 对 于 这 种 数据 ， 就 不 适合 使 用 堆 芭 条 形 图 ， 因 为 堆 姜 条 形 图 可 以 反映 总 计 的 概念 。 如 果 
将 2016 年 和 2017 年 亿 万 资产 家 庭 数 堆 革 计 总 , 就 会 出 现 问 题 , 因为 大 部 分 家 庭 数 在 这 两 年 内 都 被 
EE 复 统计 在 胡 润 财富 榜 中 ， 计 算出 来 的 总 和 会 被 扩大 。 
另外 ， 再 对 如 上 的 代码 做 三 点 解释 ， 希 望 能 够 帮助 读者 解 去 疑惑 : 
”如 上 的 水 平 交 错 条 形 图 ， 其 实质 就 是 使 用 两 次 bar 函数 ， 所 不 同 的 是 ， 第 二 次 bar 函数 使 得 
条 形 图 往 右 偏 了 0.4 个 单位 (left=np.arange(len(Cities))+bar_width ), 进而 形成 水 平 交错 条 形 图 
的 效果 。 





rm 
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”每 一 个 bar 函数 ， 都 必须 控制 条 形 图 的 宽度 (width=bar width )， 否 则 会 导致 条 形 图 的 重 登 。 
@ ”如果 利用 bar 函数 的 tick label 参数 添加 条 形 图 x 轴 上 的 刻度 标签 ,会 发 现 标 签 并 不 是 居中 对 
齐 在 两 个 条 形 图 之 间 ， 为 了 克服 这 个 问题 ， 使 用 了 pyplot 子 模块 中 的 xticks 函数 ， 并 且 使 刻 
度 标签 的 位 置 向 右 移 0.2 个 单位 。 
2. pandas 模块 
通过 pandas 模块 绘制 条 形 图 仍然 使 用 plot 方法 ， 该 “方法 ”的 语法 和 参数 含义 在 前 文 已 经 详 
细 介 绍 过 ， 但 是 plot 方法 存在 一 点 瑕 羔 ， 那 就 是 无 法 绘制 堆 著 条 形 图 。 下 面 通过 该 模块 的 plot 方 
法 绘制 单个 离散 变量 的 垂直 条 形 图 或 水 平 条 形 图 以 及 两 个 离散 变量 的 水 平 交错 条 形 图 ， 代 码 如 下 : 
# Pandas 模块 之 垂直 条 形 图 
# 绘图 (此 时 的 数据 集 在 前 文 已 经 按 各 省 GDP 做 过 升序 处 理 ) 
GDP.GDP.plot (kind = 'bar', width = 0.8, rot = 0, color = 'steelblue', 
title = '2017 年 度 6 个 省 份 GDP 分 布 ') 
# 添加 y 轴 标签 
plt.ylabel('GDP (万 亿 ) ') 
# 添加 x 轴 刻 度 标签 


plt.xticks (range (len(GDP.Province))， # 指 定 刻度 标签 的 位 置 
GDP.Province # 指出 具体 的 刻度 标签 值 


) 
# 为 每 个 条 形 图 添加 数值 标签 
for xry in enumerate (GDP.GDP): 
P1t.text(x-0.1,y+0.2, 1%sS! %round(y,1)，va='center') 
# 显示 图 形 
Pplt.show() 
见 图 6-9。 
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图 6-9 pandas 库 绘 制 的 垂直 条 形 图 


只 要 掌握 matplotlib 模块 绘制 单个 离散 变量 的 条 形 图 方法 , 就 可 以 套用 到 pandas 模块 中 的 plot 
方法 ， 两 者 是 相通 的 。 读 者 可 以 尝试 plot 方法 绘制 水 平 条 形 图 ， 这 里 就 不 再 给 出 参考 代码 了 。 接 
下 来 使 用 plot 方法 绘制 含 两 个 离散 变量 的 水 平 交错 条 形 图 ， 具 体 代码 如 下 : 


# Pandas 模块 之 水 平 交错 条 形 图 
HuRun reshape = HuRun.pivot table (index = 'City', columns='Year', 
values='Counts').reset index() 


GDP (万 亿 ) 





# 对 数据 集 降序 排序 


HuRun_reshape.sort_values (by = 2016, ascending = False, inplace = True) 
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HuRun_reshape.plot(x = 'City', y = [2016,2017], kind = "bar'， 
color = ['steelblue', 'indianred'], 
rot = 0，# 用 于 旋转 x 轴 刻 度 标签 的 角度 ，0 表示 水 平 显 示 刻度 标签 
width = 0.8，title = ' 近 两 年 5 个 城市 亿 万 资产 家 庭 数 比 较 ') 
# 添加 y 轴 标签 
plt .ylabel (' 亿 万 资产 家 庭 数 ') 
plt.xlabel('') 







































































plt .show() 
见 图 6-10。 
Year | City | Counts 
0|2016 | 北京 |15600 
14|2016 | 上海 |12700 [~ 
i 
shoo 2m en enh 
| 本 局 芝 芝 
3 ll | 4270 | 5200 
6|2017 | 上海 | 14800 2 rm [aezo Teczo0 
7|2017 | 雪 酒 | 12000 
8|2017 | 尿 几 | 5200 
9|2017 | 广州 | 4020 
图 6-10 长 形 表 转 宽 形 表 
如 上 代码 所 示 ， 应 用 plot 方法 绘制 水 平 交错 条 形 图 ， 必 须 更 改 原始 数据 集 的 形状 ， 即 将 两 个 
离散 型 变量 的 水 平 值 分 别 布置 到 行 与 列 中 (代码 中 采用 透视 表 的 方法 实现 )， 最终 形 成 的 表格 变换 


如 图 6-10 所 示 。 
针对 变换 后 的 数据 ， 可 以 使 用 plot 方法 实现 水 平 交错 条 形 图 的 绘制 ， 从 代码 量 来 看 ， 要 比 使 
用 matplotlib 模块 简短 一 些 ， 得 到 的 条 形 图 如 图 6-11 所 示 。 
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图 6-11 pandas 库 绘制 的 水 平 交错 条 形 图 
3. seaborn 模块 绘制 条 形 图 
seaborm 模块 是 一 款 专 门 用 于 绘制 统计 图 形 的 利器 ， 通 过 该 模块 写 出 来 的 代码 也 是 非常 通俗 易 
懂 的 。 该 模块 并 不 在 Anoconda 集成 工具 中 ， 故 需要 读者 另行 下 载 。 下 面 就 简单 介绍 一 下 如 何 通过 
该 模块 完成 条 形 图 的 绘制 (同样 无 法 绘制 堆 姜 条 形 图 )。 


# seaborn 模块 之 水 平 条 形 图 
# 导入 第 三 方 模块 


import seaborn as sns 
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sns.barplot (y = 'Province'，# 指定 条 形 图 x 轴 的 数据 
x = "GDP'，# 指定 条 形 图 y 轴 的 数据 
data = GDP，# 指定 需要 绘图 的 数据 集 
color = "steelblue'，# 指定 条 形 图 的 填充 色 
orient = "horizontal' ## 将 条 形 图 水 平 显示 
) 

# 重新 设置 x 轴 和 y 轴 的 标签 

plt.xlabel('GDP (万 亿 ) ') 

plt.ylabel('') 

# 添加 图 形 的 标题 

plt.title('2017 年 度 6 个 省 份 GDP 分 布 ') 

# 为 每 个 条 形 图 添加 数值 标签 

for y,x in enumerate (GDP.GDP): 

plt.text (x,y, '%s' %round(x,1),va='center') 
# 显示 图 形 
plt.show() 


见 图 6-12。 


2017 年 度 6 个 省份 GDP 分 布 
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6-12 seabom 库 绘制 的 水 平 条 形 图 


如 上 代码 就 是 通过 seaborn 模块 中 的 barplot 函数 实现 单个 离散 变量 的 条 形 图 。 除 此 之 外 ， 
seaborn 模块 中 的 barplot 函数 还 可 以 绘制 两 个 离散 变量 的 水 平 交错 条 形 图 , 所 以 有 必要 介绍 一 下 该 
函数 的 用 法 及 重要 参数 含义 : 

sns.barplot (x=None, y=None, hue=None, data=None, order=None, hue order=None, 

ci=95, n_boot=1000, orient=None, color=None, palette=None, 
saturation=0.75, errcolor='.26', errwidth=None, dodge=True, ax=None, **kwargs) 
X: 指定 条 形 图 的 x 轴 数 据 。 
y: 指定 条 形 图 的 y 轴 数 据 。 
hue: 指定 用 于 分 组 的 另 一 个 离散 变量 。 
data: 指定 用 于 绘图 的 数据 集 。 
order: 传递 一 个 字符 串 列表 ， 用 于 分 类 变量 的 排序 。 
hur order: 传递 一 个 字符 串 列 表 ， 用 于 分 类 变量 hue 值 的 排序 。 
ci: 用 于 绘制 条 形 图 的 误差 棒 ( 置信 区 间 )。 
n_boot: 当 指 定 ci 参数 时 ， 可 以 通过 mn _ boot 参数 控制 自助 抽样 的 迁 代 次 数 。 
orient: 指定 水 平 或 重 直 条 形 图 。 
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color: 指定 所 有 条 形 图 所 属 的 一 种 填充 色 。 

palette: 指定 hue 变量 中 各 水 平 的 颜色 。 

saturation: 指定 颜色 的 透明 度 。 

errcolor: 指定 误差 棒 的 颜色 。 

errwidth: 指定 误差 棒 的 线 宽 

capsize: 指定 误差 棒 两 端 线条 的 长 度 。 

dodge: bool 类 型 参数 ， 当 使 用 hue 参数 时 ， 是 否 绘制 水 平 交错 条 形 图 ， 默 认为 True。 
ax: 用 于 控制 子 图 的 位 置 。 

**kwagrs: 关键 字 参 数 ， 可 以 调用 pltbar 函数 中 的 其 他 参数 。 


为 了 说 明 如 上 函数 中 的 参数 ， 这 里 以 泰坦 尼克 号 数据 集 为 例 ， 绘 制 水 平 交错 条 形 图 ， 代 码 如 


# 读 入 数据 
Titanic = pd.read csv(r'C:\Users\Administrator\Desktop\titanic train.csv') 
# 绘制 水 平 交错 条 形 图 
sns.barplot (x = 'Pclass'，# 指定 x 轴 数 据 
y = "age'，# 指定 y 轴 数 据 
hue = 'Sex'，# 指定 分 组 数据 
data = Titanic，# 指定 绘图 数据 集 
palette = 'RdBu'，# 指定 男女 性 别 的 不 同 颜色 
errcolor = 'blue'，# 指定 误差 棒 的 颜色 
errwidth=2，# 指定 误差 棒 的 线 宽 
saturation = 1，# 指定 颜色 的 透明 度 ， 这 里 设置 为 无 透明 度 
capsize = 0.05 # 指定 误差 棒 两 端 线条 的 宽度 


) 
# 添加 图 形 标题 
plt.title(' 各 船舱 等 级 中 男女 乘客 的 年 龄 差异 ') 
# 显示 图 形 
plt.show() 


见 图 6-13。 
各 船舱 等 级 中 男女 乘客 的 年 龄 差异 


2 3 
Pclass 


图 6-13 seabomn 库 绘制 的 水 平 交错 条 形 图 
如 图 6-13 所 示 ， 绘 制 的 每 一 个 条 形 图 中 都 含有 一 条 竖 线 ， 该 竖 线 就 是 条 形 图 的 误差 棒 ， 即 各 
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组 别 下 年 龄 的 标准 差 大 小 。 从 图 6-13 可 知 ， 三 等 舱 的 男性 乘客 年 龄 是 最 为 接近 的 ， 因 为 标准 差 最 小 。 


需要 注意 的 是 ， 数 据 集 Titanic 六 





F 非 汇总 好 的 数据 ， 是 不 可 以 直接 应 用 到 matplotlib 模块 中 的 


bar 函数 与 pandas 模块 中 的 plot 方法。 如 需 使 用 ， 必 须 先 对 数据 集 进行 分 组 聚合 ， 关 于 分 组 聚合 的 
内 容 已 经 在 第 5 章 中 介绍 过 ， 读 者 可 以 前 去 了 解 。 


很 多 
一 般 都 会 
通过 本 节 


6.2 ”数值 型 变量 的 可 视 化 





方 图 、 核 密度 图 、 箱 线 图 、 小 提琴 图 、 折 线 图 以 及 面积 图 。 


6:2:1 


直方 图 与 核 密度 曲线 


时 候 , 我 们 拿 到 手 的 数据 都 包含 大 量 的 数值 型 变量 , 在 对 数值 型 变量 进行 探索 和 分 析 时 ， 
应 用 到 可 视 化 方法 。 而 本 节 的 重点 就 是 介绍 如 何 使 用 Python 实现 数值 型 变量 的 可 视 化 ， 
内 容 的 学 习 ， 读 者 将 会 掌握 如 何 使 用 matplotlib 模块 、pandas 模块 和 seabor 模块 绘制 直 


直方 图 一 般 用 来 观察 数据 的 分 布 形态 ， 横 坐标 代表 数值 的 均匀 分 段 ， 纵 坐标 代表 每 个 段 内 的 
观测 数量 (频数 ) 。 一 般 直 方 图 都 会 与 核 密度 图 搭配 使 用 , 目的 是 更 加 清晰 地 掌握 数据 的 分 布 特征 ， 
下 面 将 详细 介绍 该 类 型 图 形 的 绘制 。 


1. matplotlib 模块 


matplotlib 模块 中 的 hist 函数 就 是 用 来 绘制 直方 图 的 。 关 于 该 函数 的 语法 及 参数 含义 如 下 : 


plt.hist (x, bins=10, range=None, normed=False, 


weights=None, cumulative=False, bottom=None, 
histtype='bar', align='mid', orientation='vertical', 
rwidth=None, log=False, color=None, 
label=None, stacked=False) 

X: 指定 要 绘制 直方 图 的 数据 。 

bins: 指定 直方 图 条 形 的 个 数 。 

range: 指定 直方 图 数据 的 上 下 界 ， 默 认 包含 绘图 数据 的 最 大 值 和 最 小 值 。 

normed: 是 否 将 直方 图 的 频数 转换 成 频率 。 

weights: 该 参数 可 为 每 一 个 数据 点 设置 权重 。 

cumulative: 是 否 需要 计算 累计 频数 或 频率 。 

bottom: 可 以 为 直方 图 的 每 个 条 形 添 加 基准 线 ， 默 认为 0。 


histtype: 指定 直方 图 的 类 型 ， 默 认为 bar， 除 此 之 外 ， 还 有 barstacked、step 和 stepfilled 。 


align: 设置 条 形 边界 值 的 对 齐 方式 ， 默 认为 mid， 另 外 还 有 left 和 right。 
orientation: 设置 直方 图 的 摆 放 方向 ， 默 认为 垂直 方向 。 

rwidth: 设置 直方 图 条 形 的 宽度 。 

log: 是 否 需要 对 绘图 数据 进行 log 变换 。 

color: 设置 直方 图 的 填充 色 。 
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@ edgecolor: 设置 直方 图 边框 色 。 
@ label: 设置 直方 图 的 标签 ， 可 通过 legend 展示 其 图 例 。 
日 stacked: 当 有 多 个 数据 时 ， 是 否 需要 将 直方 图 呈 堆 一 摆 放 ， 默 认 水 平 摆 放 。 


这 里 不 妨 以 Titanic 数据 集 为 例 绘制 乘客 的 年 龄 直方 图 ， 具 体 代 码 如 下 : 


# 检查 年 龄 是 否 有 缺失 

any(Titanic.Age.isnull ()) 

# 不 妨 删 除 含有 缺失 年 龄 的 观察 

Titanic.dropna (subset=['Age'], inplace=True) 

# 绘制 直方 图 

plt.hist (x = Titanic.hge，# 指定 绘图 数据 
bins = 20，# 指定 直方 图 中 条 块 的 个 数 
color = "steelblue'，# 指定 直方 图 的 填充 色 
edgecolor = 'black' # 指定 直方 图 的 边框 色 


) 
# 添加 x 轴 和 Y 轴 标签 
plt.xlabel (' 年 龄 ') 
plt.ylabel (' 频 数 ') 
# 添加 标题 
plt.title('" 乘 客 年 龄 分 布 ') 
# 显示 图 形 
plt.show() 


见 图 6-14。 
乘 窒 年 龄 分 布 


100 





图 6-14 matplotlib 库 绘 制 的 直方 图 


如 图 6-14 所 示 ， 就 是 关于 乘客 年 龄 的 直方 图 分 布 。 需 要 注意 的 是 ， 如 果 原 始 数据 集中 存在 缺 
失 值 ， 一 定 要 对 缺失 观测 进行 删除 或 替换 ， 和 否则 无 法 绘制 成 功 。 如 果 在 直方 图 的 基础 上 再 添加 核 密 
度 图 ， 通 过 matplotlib 模块 就 比较 吃力 了 ， 因 为 首先 得 计算 出 每 一 个 年 龄 对 应 的 核 密度 值 。 为 了 简 
单 起 见 ， 下 面 利用 pandas 模块 中 的 plot 方法 将 直方 图 和 核 密度 图 绘制 到 一 起 。 


2. pandas 模块 


# 绘制 直方 图 

Titanic.Age.plot (kind = 'hist', bins = 20, color = 'steelblue', 
edgecolor = 'black'，normed = True，1label = ' 直 方 图 ') 

# 绘制 核 密度 图 
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看 





Titanic.Age.plot (kind = 'kde'，color = 'red'，1label = ' 核 密度 图 ') 
# 添加 x 轴 和 y 轴 标签 

plt.xlabel (' 年 龄 ') 

plt.ylabel (' 核 密度 值 ') 

# 添加 标题 

plt.title(' 乘 客 年 龄 分 布 ') 

# 显示 图 例 

Plt.legend () 

# 显示 图 形 

plt.show() 


见 图 6-15。 


乘客 年 龄 分 布 


核 刻度 信 


Qo05 








apo0 - 





0 -2 0 2 NN Wm 10 120 
发 


6-15 matplotlib 库 绘制 的 直方 图 + 核 密度 曲线 


如 图 6-15 所 示 ，Python 的 核心 代码 就 两 行 ， 分 别 是 利用 plot 方法 绘制 直方 图 和 核 密 度 图 。 需 
要 注意 的 是 ， 在 直方 图 的 基础 上 添加 核 密度 图 ， 必 须 将 直方 图 的 频数 更 改 为 频率 ， 即 normed 参数 
设置 为 True。 


3. seaborn 模块 


尽管 这 幅 图 满足 了 两 种 图 形 的 合成 ， 但 其 表达 的 是 所 有 乘客 的 年 龄 分 布 ， 如 果 按 性 别 分 组 ， 


sns.distplot (a, bins=None, hist=True, kde=True, rug=False, fit=None, 
hist kws=None, kde kws=None, rug kws=None, fit kws=None, 
color=None, vertical=False, norm hist=False, axlabel=None, 
label=None, ax=None) 

a: 指定 绘图 数据 ， 可 以 是 序列 、 一 维 数组 或 列表 。 

bins: 指定 直方 图 条 形 的 个 数 。 

hist: bool 类 型 的 参数 ， 是 否 绘制 直方 图 ， 默 认为 True。 

kde: bool 类 型 的 参数 ， 是 否 绘制 核 密度 图 ， 默 认为 True。 


f 究 不 同性 别 下 年 龄 分 布 的 差异 , 该 如 何 实现 ?针对 这 个 问题 , 使 用 matplotlib 模块 或 pandas 模块 
都 会 稍微 复杂 一 些 ， 推 荐 使 用 seaborn 模块 中 的 distplot 函数 ， 因 为 该 函数 的 代码 简洁 而 易 懂 。 关 
于 该 函数 的 语法 和 参数 含义 如 下 : 


rug: bool 类 型 的 参数 , 是否 绘制 须 图 ( 如 果 数据 比较 密集 , 该 参数 比较 有 用 ), 默认 为 False。 
fit: 指定 一 个 随机 分 布 对 象 ( 需 调用 scipy 模块 中 的 随机 分 布 函数 ) 用 于 绘制 随机 分 布 的 概 
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hist kws: 以 字典 形式 传递 直方 图 的 其 他 修饰 属性 ， 如 填充 色 、 边 框 色 、 宽 度 等 。 

kde kws: 以 字典 形式 传递 核 密度 图 的 其 他 修饰 属性 ， 如 线 的 颜色 、 线 的 类 型 等 。 
rug_kws: 以 字典 形式 传递 须 图 的 其 他 修饰 属性 ， 如 线 的 颜色 、 线 的 宽度 等 。 

fit kws: 以 字典 形式 传递 概率 密度 曲线 的 其 他 修饰 属性 ， 如 线条 颜色 、 形 状 、 宽 度 等 。 
color: 指定 图 形 的 颜色 ， 除 了 随机 分 布 曲线 的 颜色 。 

vertical: bool 类 型 的 参数 ， 是 否 将 图 形 垂直 显示 ， 默 认为 True。 

norm_hist: bool 类 型 的 参数 ， 是 否 将 频数 更 改 为 频率 ， 默 认为 False。 

axlabel: 用 于 显示 轴 标 签 。 

label: 指定 图 形 的 图 例 ， 需 结合 plt.legend() 一 起 使 用 。 

ax: 指定 子 图 的 位 置 。 


从 函数 的 参数 可 知 ， 通 过 该 函数 ， 可 以 实现 三 种 图 形 的 合成 ， 分 别 是 直方 图 (hist 参数 ) 、 核 
密度 曲线 (kde 参数 ) 以 及 指定 的 理论 分 布 密度 曲线 (人 参数 )。 接 下 来 ， 针对 如 上 介绍 的 distplot 
函数 ， 绘 制 不 同性 别 下 乘客 的 年 龄 分 布 图 ， 具 体 代码 如 下 : 

# 取出 男性 年 龄 

Age Male = Titanic.Age[Titanic.Sex == 'male'] 


# 取出 女性 年 龄 
Age_Female = Titanic.Age[Titanic.Sex == 'female'] 


# 绘制 男女 乘客 年 龄 的 直方 图 
sns.distplot (Age Male, bins = 20, kde = False, 
hist_kws = {'color':'steelblue'}, label = ' 男 性 ') 
# 绘制 女性 年 龄 的 直方 图 
sns.distplot (Age_ Female, bins = 20, kde = False, 
hist_kws = {'color':'purple'}，label = ' 女 性 ') 
plt.title(' 男 女 乘客 的 年 龄 直方 图 ') 
# 显示 图 例 
plt.legend() 
# 显示 图 形 
plt.show() 


# 绘制 男女 乘客 年 龄 的 核 密度 图 

sns.distplot (Age Male, hist = False, kde kws = {'color':'red', 'linestyle':'-'}, 
norm hist = True，label = ' 男 性 ') 

# 绘制 女性 年 龄 的 核 密度 图 

sns.distplot (Age Female, hist = False, kde kws = {'color':'black', 'linestyle':'--'}, 
norm hist = True，label = ' 女 性 ') 

plt.title(' 男 女 乘客 的 年 龄 核 密度 图 ' ) 

# 显示 图 例 

plt.legend() 

# 显示 图 形 

plt.show() 


见 图 6-16。 
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。 图 6-16 seabom 库 绘制 的 直方 图 + 核 密度 曲线 


如 图 6-16 所 示 ， 为 了 避免 四 个 图 形 混在 一 起 不 易 发 现 数据 背后 的 特征 ， 将 直方 图 与 核 密 度 图 
分 开 绘 制 。 从 直方 图 来 看 ， 女 性 年 龄 的 分 布 明显 比 男性 矮 ， 说 明 在 各 年 龄 段 下 ， 男 性 乘客 要 比 女性 
乘客 多 ; 再 看 核 密度 图 ， 男 女性 别 的 年 龄 分 布 趋势 比较 接近 ， 说 明 各 年 龄 段 下 的 男女 乘客 人 数 同步 
增加 或 减少 。 


6.2.2 ” 箱 线 图 


箱 线 图 是 另 一 种 体现 数据 分 布 的 图 形 ， 通 过 该 图 可 以 得 知 数据 的 下 须 值 CQ1-1.5IQR) 、 下 四 
分 位 数 (Q1) 、 中 位 数 〈Q2) 、 均 值 、 上 四 分 位 (Q3) 数 和 上 须 值 (Q3+1.5IQR) ， 更 重要 的 是 ， 
箱 线 图 还 可 以 发 现 数据 中 的 异常 点 。 

箱 线 图 的 绘制 仍然 可 以 通过 matplotlib 模块 、pandas 模块 和 seaborn 模块 完成 ， 下 面 将 一 一 介 
绍 各 模块 绘制 条 形 图 的 过 程 。 

1. matplotlib 模块 

首先 介绍 一 下 matplotlib 模块 中 绘制 箱 线 图 的 boxplot 函数 ， 有 关 该 函数 的 语法 和 参数 含义 如 下 : 


Plt.boxplot (x, notch=None, sym=None, vert=None, 
whis=None, positions=None, widths=None, 
patch artist=None, meanline=None, showmeans=None, 
showcaps=None, showbox=None, showfliers=None, 
boxprops=None, labels=None, flierprops=None, 
medianprops=None, meanprops=None, 
capprops=None, whiskerprops=None) 
”x: 指定 要 绘制 箱 线 图 的 数据 。 
@ ”notch: 是 否 以 凹 口 的 形式 展现 箱 线 图 ， 默 认 非 凹 口 。 
sym: 指定 异常 点 的 形状 ， 默 认为 + 号 显示 。 
@ vert: 是 否 需要 将 箱 线 图 垂直 摆 放 ， 默 认 答 直 摆 放 。 
e “whis: 指定 上 下 须 与 上 下 四 分 位 的 距离 ， 默 认为 1.5 倍 的 四 分 位 差 。 
@ positions: 指定 箱 线 图 的 位 置 ， 默 认为 [0,1,2.…]。 
。 ”widths: 指定 箱 线 图 的 宽度 ， 默 认为 0.5。 
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patch_artist: bool 类 型 参数 ， 是 否 填充 箱 体 的 颜色 ; 默认 为 False。 
meanline: bool 类 型 参数 ， 是 否 用 线 的 形式 表示 均值 ， 默 认为 False。 
showmeans: bool 类 型 参数 ， 是 否 显示 均值 ， 默 认为 False。 
showcaps: bool 类 型 参数 ， 是 否 显示 箱 线 图 顶端 和 末端 的 两 条 线 ( 即 上 下 须 )， 默 认为 True。 
showbox: bool 类 型 参数 ， 是 否 显示 箱 线 图 的 箱 体 ， 默 认为 True。 
showfliers: 是 否 显示 异常 值 ， 默 认为 True。 

boxprops: 设置 箱 体 的 属性 ， 如 边框 色 ， 填 充 色 等 。 

labels: 为 箱 线 图 添加 标签 ， 类 似 于 图 例 的 作用 。 

filerprops: 设置 异常 值 的 属性 ， 如 异常 点 的 形状 、 大 小 、 填 充 色 等 。 
medianprops: 设置 中 位 数 的 属性 ， 如 线 的 类 型 、 粗 细 等 。 
meanprops: 设置 均值 的 属性 ， 如 点 的 大 小 、 颜 色 等 。 

capprops: 设置 箱 线 图 顶端 和 末端 线条 的 属性 ， 如 颜色 、 粗 细 等 。 
whiskerprops: 设置 须 的 属性 ， 如 颜色 、 粗 细 、 线 的 类 型 等 。 


为 读者 方便 理解 boxplot 函数 的 用 法 ， 这 里 以 某 平台 二 手 房 数据 为 例 ， 运 用 箱 线 图 探究 其 二 手 
房 单价 的 分 布 情况 ， 具 体 代 码 如 下 : 


# 绘制 箱 线 图 
plt.boxplot (x = Sec Buildings.price unit，# 指定 绘图 数据 
patch_artist=True，# 要 求 用 自 定义 颜色 填充 盒 形 图 ， 默 认 白 色 填 充 
showmeans=True，# 以 点 的 形式 显示 均值 
boxprops = {'color':'black','facecolor':'steelblue'},# 设置 箱 体 属 性 ， 如 边框 色 和 填充 色 
# 设置 异常 点 属性 ， 如 点 的 形状 、 填 充 色 和 点 的 大 小 
flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
# 设置 均值 点 的 属性 ， 如 点 的 形状 、 填 充 色 和 点 的 大 小 
meanprops = {'marker':'D','markerfacecolor':'indianred', 'markersize':4}, 
# 设置 中 位 数 线 的 属性 ， 如 线 的 类 型 和 颜色 
medianprops = {'linestyle':'--','color':'orange'}, 


labels = [''] # 删除 x 轴 的 刻度 标签 ， 否 则 图 形 显示 刻度 标签 为 1 


) 
# 添加 图 形 标题 
plt.title(' 二 手 房 单价 分 布 的 箱 线 图 ' ) 
# 显示 图 形 
plt.show() 


见 图 6-17。 
二 手 房 单价 分 布 的 入 线 图 








图 6-17 matplotlib 库 绘制 的 箱 线 图 
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如 图 6-17 所 示 ， 图 中 的 上 下 两 条 横 线 代 表 上 下 须 、 箱 体 的 上 下 两 条 横 线 代表 上 下 四 分 位 数 、 
箱 体 中 的 虚线 代表 中 位 数 、 箱 体 中 的 点 则 为 均值 、 上 下 须 两 端的 点 代表 异常 值 。 通 过 图 中 均值 和 中 
位 数 的 对 比 就 可 以 得 知 数据 微微 右 偏 (判断 标准 : 如 果 数 据 近似 正 态 分 布 , 则 众 数 = 中 位 数 = 均值 ; 
如 果 数 据 右 偏 ， 则 众 数 < 中 位 数 < 均值 ;如 果 数 值 左 偏 ， 则 众 数 > 中 位 数 > 均 值 ) 。 
如 上 绘制 的 是 二 手 房 整体 单价 的 箱 线 图 , 这 样 的 箱 线 图 可 能 并 不 常见 , 更 多 的 是 分 组 箱 线 图 ， 
即 二 手 房 的 单价 按照 其 他 分 组 变量 〈 如 行政 区 域 、 楼 层 、 朝 向 等 ) 进行 对 比分 析 。 下 面 继续 使 用 
matplotlib 模块 对 二 手 房 的 单价 绘制 分 组 箱 线 图 ， 代 码 如 下 : 

# 二 手 房 在 各 行政 区 域 的 平均 单价 

group region = Sec Buildings.groupby ('region') 


avg price = group region.aggregate({'price unit':np.mean}) .sort values('price unit', 
ascending = False) 








# 通过 循环 ， 将 不 同行 政 区 域 的 二 手 房 存储 到 列表 中 
region price = [] 
for region in avg price.index: 
region price.append(Sec Buildings.price unit[Sec Buildings.region == region]) 
# 绘制 分 组 箱 线 图 
Pplt.boxplot (x = region price, 
patch artist=True, 
labels = avg_price.index，# 添加 x 轴 的 刻度 标签 
showmeans=True, 
boxprops = {'color':'black', ‘facecolor':'steelblue'}, 
flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
meanprops = {'marker':'D',''markerfacecolor':'indianred', 'markersize':4}, 


medianprops = {'linestyle':'--','color':'orange'} 
) 
# 添加 y 轴 标签 
Plt.ylabel(' 单 价 (元 ) ') 
# 添加 标题 
plt.title(' 不 同行 政 区 域 的 二 手 房 单价 对 比 ') 
# 显示 图 形 
plt.show() 
见 图 6-18。 
不 同行 政 区 域 的 二 手 房 单价 对 比 
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图 6-18 matplotlib 库 绘制 的 分 组 箱 线 图 
应 用 matplotlib 模块 绘制 如 上 所 示 的 分 组 箱 线 图 会 相对 烦琐 一 些 ， 由 于 boxplot 函数 每 次 只 能 





L321| 


从 零 开 始 学 Python 数据 分 析 与 挖掘 





绘制 一 个 箱 线 图 , 为 了 能 够 实现 多 个 箱 线 图 的 绘制 ， 对 数据 稍微 做 了 一 些 变 动 ， 即 将 每 个 行政 区 域 








下 的 二 了 


F 房 单价 汇总 到 一 个 列表 中 ， 然 后 基于 这 个 大 列表 应 用 boxplot 函数 。 在 绘图 过 程 中 ， 首 先 


做 了 一 个 “手脚 ”， 那 就 是 统计 各 行政 区 域 二 手 房 的 平均 单价 ， 并 降序 排序 ， 这 样 做 的 目的 就 是 让 
分 组 箱 线 图 能 够 降序 呈 

虽然 pandas 模块 中 的 plot 方法 可 以 绘制 分 组 箱 线 图 ， 但 是 该 方法 是 基于 数据 框 执 行 的 ， 并 且 
数据 框 的 每 一 列 对 应 一 个 箱 线 图 。 对 于 二 手 房 数据 集 来 说 ， 应 用 plot 方法 绘制 分 组 箱 线 图 不 太 合 
适 ， 因 为 每 一 个 行政 区 的 二 手 房 数量 不 一 致 ， 将 导致 无 法 重 构 一 个 新 的 数据 框 用 于 绘图 。 

2. seaborn 模块 


如 果 读 者 觉得 matplotlib 模块 绘制 分 组 箱 线 图 比较 麻烦 ， 可 以 使 用 seaborn 模块 中 的 boxplot 
函数 。 下 面 不 妨 先 了 解 一 下 该 函数 的 参数 含义 : 


sns 





.boxplot (x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
orient=None, color=None, palette=None, saturation=0.75, width=0.8, 
dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs) 


Xx: 指定 箱 线 图 的 x 轴 数 据 。 

y: 指定 箱 线 图 的 y 轴 数 据 。 

hue: 指定 分 组 变量 。 

data: 指定 用 于 绘图 的 数据 集 。 

order: 传递 一 个 字符 囊 列 表 ， 用 于 分 类 变量 的 排序 。 

hue_order: 传递 一 个 字符 串 列表 ， 用 于 分 类 变量 hue 值 的 排序 。 
orient: 指定 箱 线 图 的 呈现 方向 ， 默 认为 重 直 方向 。 

color: 指定 所 有 箱 线 图 的 填充 色 。 

palette: 指定 hue 变量 的 区 分 色 。 

saturation: 指定 颜色 的 透明 度 。 

width: 指定 箱 线 图 的 宽度 。 

dodge: bool 类 型 的 参数 ， 当 使 用 hue 参数 时 ， 是 否 绘制 水 平 交错 的 箱 线 图 ， 默 认为 True。 
fliersize: 指定 异常 值 点 的 大 小 。 

linewidth: 指定 箱 体 边 框 的 宽度 。 

whis: 指定 上 下 须 与 上 下 四 分 位 的 距离 ， 默 认为 1.5 倍 的 四 分 位 差 。 
notch: bool 类 型 的 参数 ， 是 否 绘制 凹 口 箱 线 图 ， 默 认为 False。 

ax: 指定 子 图 的 位 置 。 

**kwargs: 关键 字 参 数 ， 可 以 调用 plt.boxplot 函数 中 的 其 他 参数 。 


这 里 仍 以 上 海 二 手 房 数据 为 例 ， 应 用 seabom 模块 中 的 boxplot 函数 绘制 分 组 箱 线 图 ， 详 细 代 


码 如 下 : 


# 绘制 分 组 箱 线 图 


sns 


.boxplot (x = 'region', y = 'price unit', data = Sec Buildings, 
order = avg price.index, showmeans=True,color = 'steelblue', 
flierprops = {'marker':'o','markerfacecolor':'red', 'markersize':3}, 
meanprops = {'marker':'D', 'markerfacecolor':'indianred', 'markersize':4}, 
medianprops = {'linestyle':'--','color':'orange'} 
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) 
# 更 改 x 轴 和 Y 轴 标签 
plt.xlabel('') 
plt.ylabel(' 单 价 (元 ) ') 
# 添加 标题 
plt.title(' 不 同行 政 区 域 的 二 手 房 单价 对 比 ') 
# 显示 图 形 
plt.show() 


通过 如 上 代码 ， 同 样 可 以 得 到 完全 一 致 的 分 组 箱 线 图 。 这 里 建议 读者 不 要 直接 学 习 和 使 用 
pandas 模块 和 seaborn 模块 绘制 统计 图 形 ， 而 是 先 把 matplotlib 模块 摸 透 ， 因 为 Python 的 核心 绘图 
模块 是 matplotlib 。 


6.2.3 


小 提琴 图 


小 提琴 图 是 比较 有 意思 的 统计 图 形 ， 它 将 数值 型 数据 的 核 密度 图 与 箱 线 图 融合 在 一 起 ， 进 而 
得 到 一 个 形似 小 提琴 的 图 形 。 尽 管 matplotlib 模块 也 提供 了 绘制 小 提琴 图 的 函数 violinplot, 但 是 绘 
制 出 来 的 图 形 中 并 不 包含 一 个 完整 的 箱 线 图 , 所 以 本 节 将 直接 使 用 seabor 模块 中 的 violinplot 函数 
绘制 小 提琴 图 。 首 先 ， 带 领 读 者 了 解 一 下 有 关 violinplot 函数 的 语法 和 参数 含义 : 


sns.violinplot (x=None, y=None, hue=None, data=None, order=None, hue order=None, 


bw='scott', cut=2, scale='area', scale hue=True, gridsize=100, 
width=0.8, inner='box', split=False, dodge=True, orient=None, 
linewidth=None, color=None, palette=None, saturation=0.75, ax=None) 
xX: 指定 小 提琴 图 的 x 轴 数 据 。 
y: 指定 小 提琴 图 的 y 轴 数 据 。 
hue: 指定 一 个 分 组 变量 。 
data: 指定 绘制 小 提琴 图 的 数据 集 。 
order: 传递 一 个 字符 串 列表 ， 用 于 分 类 变量 的 排序 。 
hue_order: 传递 一 个 字符 串 列 表 ， 用 于 分 类 变量 hue 值 的 排序 。 
bw: 指定 核 密度 估计 的 带宽 ， 带 宽 越 大 ， 密 度 曲线 越 光滑 。 
scale: 用 于 调整 小 提琴 图 左右 的 宽度 ， 如 果 为 area， 则 表示 每 个 小 提琴 图 左右 部 分 拥有 相同 
的 面积 ; 如 果 为 count， 则 表示 根据 样本 数量 来 调节 宽度 ; 如 果 为 width， 则 表示 每 个 小 提琴 
图 左右 两 部 分 拥有 相同 的 宽度 。 
scale_ hue: bool 类 型 参数 ， 当 使 用 hue 参数 时 ， 是 否 对 hue 变量 的 每 个 水 平 做 标准 化 处 理 ， 
默认 为 True。 


e@ width: 使 用 hue 参数 时 ， 用 于 控制 小 提琴 图 的 宽度 。 


inner: 指定 小 提琴 图 内 部 数据 点 的 形态 ， 如 果 为 box， 则 表示 绘制 微型 的 箱 线 图 ; 如 果 为 
quartiles， 则 表示 绘制 四 分 位 的 分 布 图 ; 如 果 为 point 或 stick， 则 表示 绘制 点 或 小 坚 条 。 

split: bool 类 型 参数 ,使 用 hue 参数 时 ,将 小 提琴 图 从 中 间 分 为 两 个 不 同 的 部 分 ,默认 为 False。 
dodge: bool 类 型 的 参数 ， 当 使 用 hue 参数 时 ， 是 否 绘制 水 平 交错 的 小 提琴 图 ， 默 认为 True。 
orient: 指定 小 提琴 图 的 呈现 方向 ， 默 认为 垂直 方向 。 

linewidth: 指定 小 提琴 图 的 所 有 线条 宽度 。 
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color: 指定 小 提琴 图 的 颜色 ， 该 参数 与 palette 参数 一 起 使 用 时 无 效 。 
palette: 指定 hue 变量 的 区 分 色 。 

saturation: 指定 颜色 的 透明 度 。 

ax: 指定 子 图 的 位 置 。 


接 下 来 ， 以 酒吧 的 消费 数据 为 例 〈 数 据 包含 客户 的 消费 金额 、 消 费时 间 、 打 赏 金额 、 客 户 性 
别 、 是 否 抽烟 等 字段 ) ， 利 用 如 上 介绍 的 函数 绘制 分 组 小 提琴 图 ， 以 帮助 读者 进一步 了 解 参数 的 含 
义 ， 绘 图 代码 如 下 : 

# 读 取 数 据 


tips = pd.read csv(r'C:\Users\Administrator\Desktop\tips.csv') 
# 绘制 分 组 小 提琴 图 
sns.violinplot (x = ' day '，# 指定 x 轴 的 数据 
y =' total bill ， ，# 指定 Y 轴 的 数据 
hue = ' sex '，# 指定 分 组 变量 
data = tips，# 指定 绘图 的 数据 集 
order = ['Thur', 'Fri','Sat','Sun']，# 指定 x 轴 刻度 标签 的 顺序 
scale = "count'，# 以 男女 客户 数 调节 小 提琴 图 左右 的 宽度 
split = True，# 将 小 提琴 图 从 中 间 割 裂 开 ， 形 成 不 同 的 密度 曲线 
palette = "RdBu' # 指定 不 同性 别 对 应 的 颜色 (因为 hue 参数 被 设置 为 性 别 变量 ) 


# 添加 图 形 标题 

plt.title(' 每 天 不 同性 别 客户 的 消费 额 情况 ') 

# 设置 图 例 

plt.legend(loc = 'upper center', ncol = 2) 
# 显示 图 形 

plt.show() 

见 图 6-19。 
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图 6-19 seaborn 库 绘 制 的 小 提琴 图 


如 图 6-19 所 示 ， 得 到 了 分 组 的 小 提琴 图 ， 读 者 会 发 现 ， 小 提琴 图 的 左右 两 边 并 不 对 称 ， 是 因 
为 同时 使 用 了 hue 参数 和 split 参数 ， 两 边 的 核 密 度 图 代表 了 不 同性 别 客户 的 消费 额 分 布 。 从 这 张 
图 中 ， 一 共 可 以 反映 四 个 维度 的 信息 ，y 轴 表 示 客户 的 消费 额 、x 轴 表 示 客 户 的 消费 时 间 、 颜 色 图 
例 表 示 客 户 的 性 别 、 左 右 核 密度 图 的 宽度 代表 了 样本 量 。 以 周 五 和 周 六 两 天 为 例 ， 周 五 的 男女 客户 
数量 差异 不 大 ， 而 周 六 男性 客户 要 比 女性 客户 多 得 多 ， 那 是 因为 右 半边 的 核 密度 图 更 宽 一 些 。 
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6.2.4 ”折线 图 








对 于 时 间 序 列 数据 而 言 ， 一 般 都 会 使 用 折线 图 反映 数据 背后 的 趋势 。 通 常 折线 图 的 横 坐 标 指 


代 日 期 数据 , 纵 坐 标 代表 某 个 数值 型 变量 , 当然 还 可 以 使 用 第 三 个 离散 变量 对 折线 图 进行 分 组 处 理 。 
接 下 来 仅 使 用 Python 中 的 matplotlib 模块 和 pandas 模块 实现 折线 图 的 绘制 。 尽管 seaborn 模块 中 的 
tsplot 函数 也 可 以 绘制 时 间 序 列 的 折线 图 ， 但 是 该 函数 非常 不 合理 ， 故 不 在 本 节 中 介绍 。 


1. matplotlib 模块 
折线 图 的 绘制 可 以 使 用 matplotlib 模块 中 的 plot 函数 实现 .关于 该 函数 的 语法 和 参数 含义 如 下 : 


plt.plot (x, y, linestyle, linewidth, color, marker, 
markersize, markeredgecolor, markerfactcolor, 
markeredgewidth, label, alpha) 


@ x: 指定 折线 图 的 x 轴 数 据 。 

@ y: 指定 折线 图 的 y 轴 数 据 。 

@ ”linestyle: 指定 折线 的 类 型 ， 可 以 是 实 线 、 虚 线 、 点 虚线 、 点 点 线 等 ， 默 认为 实 线 。 
elinewidth: 指定 折线 的 宽度 。 

@ marker: 可 以 为 折线 图 添加 点 ， 该 参数 是 设置 点 的 形状 。 

@ markersize: 设置 点 的 大 小 。 

@ ”markeredgecolor: 设置 点 的 边框 色 。 

@ markerfactcolor: 设置 点 的 填充 色 。 

@ markeredgewidth: 设置 点 的 边框 宽度 。 

”label: 为 折线 图 添加 标签 ， 类 似 于 图 例 的 作用 。 


为 了 进一步 理解 plot 函数 中 的 参数 含义 ， 这 里 以 某 微 信 公众 号 的 阅读 人 数 和 阅读 人 次 为 例 〈 数 据 


包含 日 期 、 人 数 和 人 次 三 个 字段 ) ， 绘 制 2017 年 第 四 季度 微 信 文 章 阅读 人 数 的 折线 图 ， 代 码 如 下 : 


# 数据 读 取 

wechat = pd.read excel(r'C:\Users\Administrator\Desktop\wechat .xlsx') 

# 绘制 单条 折线 图 

plt.plot (wechat.Date，# x 轴 数 据 
wechat .Counts，# Y 轴 数据 
linestyle = '-'，# 折线 类 型 
linewidth = 2，# 折线 宽度 
color = 'steelblue'，# 折线 颜色 
marker = "o'"，# 折线 图 中 添加 圆 点 
markersize = 6，# 点 的 大 小 
markeredgecolor='black'，# 点 的 边框 色 
markerfacecolor='brown') # 点 的 填充 色 

# 添加 Y 轴 标签 

plt.ylabel(' 人 数 ') 

# 添加 图 形 标题 

plt.title(' 每 天 微 信 文 章 阅 读 人 数 趋 势 ') 

# 显示 图 形 

plt.show() 


见 图 6-20。 
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每 天 微 信 文章 阅读 人 数 趋势 


图 620 matplotib 库 绘制 的 折线 图 
如 图 6-20 所 示 ， 在 绘制 折线 图 的 同时 ， 也 添加 了 每 个 数据 对 应 的 圆 点 。 读 者 可 能 会 注意 到 ， 
代码 中 折线 类 型 和 点 类 型 分 别 用 一 个 减 号 -〈 代 表 实 线 ) 和 字母 o (代表 空心 圆 点 ) 表示 。 是 否 还 
有 其 他 的 表示 方法 ? 这 里 将 常用 的 线 型 和 点 型 汇总 到 表 6-1 和 表 6-2 中 。 

















表 6-1 线 的 类 型 

- (一 个 减 号 ) 一 (两 个 减 号 ) 
虚线 和 点 构成 的 线 : (英文 冒号 ) 点 构成 的 线 

表 6-2 点 的 类 型 
符号 含义 符号 含义 
.〈 英 文 甸 号 ) 实心 点 0 小写 字母 》 空心 点 
朝 上 的 空心 三 角形 v《 小 写字 母 》 朝 下 的 空心 三 角形 
> (大 于 号 ) 朝 右 的 空心 三 角形 < (小 于 号 ) 朝 左 的 空心 三 角形 
s 《小 写字 母 ) 空心 正方 形 p《〈 小 写字 母 ) 空心 五 边 形 
空心 五 角 星 h《 小 写字 母 》 空心 六 边 形 
x 《小 写字 母 ) 叉 号 d〔 小 写字 母 ) 空心 菱形 





虽然 上 面 的 图 形 可 以 反映 有 关 微 信 文章 阅读 人 数 的 波动 趋势 ， 但 是 为 了 进一步 改进 这 个 折线 
还 需要 解决 两 个 问题 : 

@ 如何 将 微 信 文章 的 阅读 人 数 和 阅读 人 次 同时 呈现 在 图 中 。 

”对 于 xX 轴 的 刻度 标签 ， 是 否 可 以 只 保留 月 份 和 日 期 ， 并 且 以 7 天 作为 间隔 。 

# 绘制 两 条 折线 图 


# 导入 模块 ， 用 于 日 期 刻度 的 修改 
import matplotlib as mpl 





砚 


# 绘制 阅读 人 数 折线 图 

plt.plot (wechat .Date，# x 轴 数 据 
wechat .Counts，# Y 轴 数据 
linestyle = '-'，# 折线 类 型 ， 实 心 线 
color = 'steelblue'，# 折线 颜色 
label = ' 阅 读 人 数 ' 
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) 

# 绘制 阅读 人 次 折线 图 

plt.plot (wechat.Date，## x 轴 数 据 
wechat .Times，## y 轴 数据 


linestyle = '--'，# 折线 类 型 ， 虚 线 
color = 'indianred'，# 折线 颜色 
label = ' 阅 读 人 次 ' 
) 

# 获取 图 的 坐标 信息 


ax = Plt.gca() 

# 设置 日 期 的 显示 格式 

date format = mpl.dates.DateFormatter("%m-%d") 
ax.xaxis.set major formatter (date format) 
# 设置 x 轴 显示 多 少 个 日 期 刻度 〈 读 者 可 以 参考 使 用 ) 

# xlocator = mpl.ticker.LinearLocator (10) 
# 设置 x 轴 每 个 刻度 的 间隔 天 数 

xlocator = mpl.ticker.MultipleLocator(7) 
ax.xaxis.set major_ locator(xlocator) 

# 为 了 避免 x 轴 刻 度 标签 的 紧凑 ， 将 刻度 标签 旋转 45 度 
Plt.xticks (rotation=45) 


# 添加 y 轴 标签 

plt.ylabel(' 人 数 ') 

# 添加 图 形 标题 

plt.title(' 每 天 微 信 文章 阅读 人 数 与 人 次 趋势 ') 
# 添加 图 例 

plt.legend() 

# 显示 图 形 

plt.show() 


见 图 6-21。 


每 天 微 信 文章 阅读 人 数 与 人 次 趋势 
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图 6-21 matplotlib 库 绘制 的 折线 图 
如 图 6-21 所 示 ， 人 恰到好处 地 解决 了 之 前 提出 的 两 个 问题 。 上 面 的 绘图 代码 可 以 分 解 为 两 个 核 
心 部 分 : 
@ 运用 两 次 plot 函数 分 别 绘制 阅读 人 数 和 阅读 人 次 的 折线 图 , 最 终 通过 pltshow() 将 两 条 折线 呈 


现在 一 张 图 中 。 
® 日 期 型 轴 刘 度 的 设置 ，ax 变量 用 来 获取 原始 状态 的 轴 属 性 ， 然 后 基于 ax 对 象 修改 刻度 的 显 
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示 方 式 ， 一 个 是 仅 包含 月 日 的 格式 ， 另 一 个 是 每 7 天 作为 一 个 间隔 。 
2. pandas 模块 


如 果 使 用 pandas 模块 绘制 折线 图 , 调用 的 仍然 是 plot 方法 , 接 下 来 以 2015 一 2017 年 上 海 每 天 
的 最 高 气温 数据 为 例 ， 绘 制 每 月 平均 最 高 气温 的 三 条 折线 图 ， 具 体 代 码 如 下 : 
# 读 取 天 气 数据 


weather = pd.read excel(r'C:\Users\Administrator\Desktop\weather.xlsx') 
# 统计 每 月 的 平均 最 高 气温 
data = weather.pivot table(index = 'month', columns='year', values='high') 
# 绘制 折线 图 
data.plot (kind = 'line', 
style = ['-','--',':'] # 设置 折线 图 的 线条 类 型 
) 
# 修改 x 轴 和 y 轴 标签 
Plt .xlabel (' 月 份 ') 
plt.ylabel (' 气 温 ') 
# 添加 图 形 标题 
Plt .title(' 每 月 平均 最 高 气温 波动 趋势 ') 
# 显示 图 形 
plt.show() 


见 图 6-22。 


每 月 平均 最 高 气温 波动 趋势 





4 6 8 10 12 


有 


图 6-22 ”pandas 库 绘 制 的 折线 图 


如 图 6-22 所 示 ， 图 中 表示 的 是 各 年 份 中 每 月 平均 最 高 气温 的 走势 ， 虽 然 绘图 的 核心 部 分 (plot 
过 程 ) 很 简单 , 但 是 前 提 需 要 将 原始 数据 集 转换 成 可 以 绘制 多 条 折线 图 的 格式 , 即 构成 三 条 折线 图 
的 数据 分 别 为 数据 框 的 三 个 字段 。 为 了 构造 特定 需求 的 数据 集 ， 使 用 了 数据 框 的 pivot_table 方法 ， 
形成 一 张 满足 条 件 的 透视 表 。 图 6-23 所 示 就 是 数据 集 转换 的 前 后 对 比 。 















































date year [month [day [Iow [high | year [2015 [2016 2017 

0 2015-01-01| 2015|1 1 1 |4 | month 

1 20sor02|20sl1 |2 lo ls | 1 |9870968 [7419355 |10225806 
2 |20150103|2045|1 |3 |4 | | [2 [+03s2857|11 517241 |11.142857 
3 lsooslaoslr | | [we [Em C2 CE CE 
4 |2015-01-05|2015|1 5 |9 |19 四 20 866667 |21 033333| 22 200000 
5 |201501-06|2015|1 s |3 | |s |25064518|24612903|26741935) 
6 |2015.01-07|2015|1 7 |2 |7 |s |27.s0000 |27 .e00000|27 7eese7 
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6.3 ”关系 型 数据 的 可 视 化 


前 面 的 两 节 内 容 都 是 基于 独立 的 离散 变量 或 数值 变量 进行 的 可 视 化 展现 。 在 众多 的 可 视 化 图 
形 中 ， 有 一 类 图 形 专门 用 于 探究 两 个 或 三 个 变量 之 间 的 关系 。 例 如 ， 散 点 图 用 于 发 现 两 个 数值 变量 
之 间 的 关系 , 气泡 图 可 以 展现 三 个 数值 变量 之 间 的 关系 , 热力 图 则 体现 了 两 个 离散 变量 之 间 的 组 合 
关系 。 

本 节 将 使 用 matplotlib 模块 、pandas 模块 和 seabom 模块 绘制 上 述 所 介绍 的 三 种 关系 型 图 形 。 
下 面 首先 了 解 一 下 最 常用 的 散 点 图 是 如 何 绘制 的 。 


6.3.1 散 点 图 


如 果 和 需要 研究 两 个 数值 型 变量 之 间 是 否 存在 某 种 关系 ， 例 如 正 向 的 线性 关系 ， 或 者 是 趋势 性 
的 非 线 性 关系 ， 那 么 散 点 图 将 是 最 佳 的 选择 。 

1. matplotlib 模块 

matplotlib 模块 中 的 scatter 函数 可 以 非常 方便 地 绘制 两 个 数值 型 变量 的 散 点 图 。 这 里 首先 将 该 
函数 的 语法 及 参数 含义 写 在 下 方 ， 以 便 读者 掌握 函数 的 使 用 : 


scatter (x, y, s=20, c=None, marker='0', cmap=None, norm=None, vmin=None, 
vmax=None, alpha=None, linewidths=None, edgecolors=None) 


@ x: 指定 散 点 图 的 x 轴 数 据 。 

@ yY: 指定 散 点 图 的 y 轴 数 据 。 

es: 指定 散 点 图 点 的 大 小 ， 默 认为 20， 通 过 传 入 其 他 数值 型 变量 ， 可 以 实现 气泡 图 的 绘制 。 

ec: 指定 散 点 图 点 的 颜色 ， 默 认为 蓝 色 ， 也 可 以 传递 其 他 数值 型 变量 ， 通 过 cmap 参数 的 色 阶 
表示 数值 大 小 。 

@ marker: 指定 散 点 图 点 的 形状 ， 默 认为 空心 圆 。 

@ ”cmap: 指定 某 个 Colormap 值 ， 只 有 当 c 参数 是 一 个 浮 点 型 数组 时 才 有 效 。 

ee norm: 设置 数据 亮度 ， 标 准 化 到 0~1， 使 用 该 参数 仍 需要 参数 c 为 浮 点 型 的 数组 。 

evmin、vmax: 亮度 设置 ， 与 norm 类 似 ， 如 果 使 用 norm 参数 ， 则 该 参数 无 效 。 

@ alpha: 设置 散 点 的 透明 度 。 

日 linewidths: 设置 散 点 边界 线 的 宽度 。 

@ edgecolors: 设置 散 点 边界 线 的 颜色 。 


下 面 以 inis 数据 集 为 例 ， 探 究 如 何 应 用 matplotlib 模块 中 的 scatter 函数 绘制 花瓣 宽度 与 长 度 之 
间 的 散 点 图 ， 绘 图 代码 如 下 : 

# 读 入 数据 

iris = pd.read csv(r'C:\Users\Administrator\Desktop\iris.csv') 


# 绘制 散 点 图 
plt.scatter (x = iris.Petal_Width，# 指定 散 点 图 的 x 轴 数 据 
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y = iris.Petal Length，# 指定 散 点 图 的 y 轴 数据 
color = 'steelblue' # 指定 散 点 图 中 点 的 颜色 
1 

# 添加 x 轴 和 Y 轴 标签 

Plt.xlabel (" 花 瓣 宽度 ' ) 

plt.ylabel (' 花 辩 长 度 ' ) 

# 添加 标题 

plt.title(' 高 尾 花 的 花瓣 宽度 与 长 度 关系 ') 

# 显示 图 形 

plt.show() 


见 图 6-24。 





图 6-24 ”matplotlib 库 绘制 的 散 点 图 


如 图 6-24 所 示 ， 通 过 scatter 函数 就 可 以 非常 简单 地 绘制 出 花瓣 宽 度 与 长 度 的 散 点 图 。 如 果 使 
用 pandas 模块 中 的 plot 方法 ， 同 样 可 以 很 简单 地 绘制 出 散 点 图 。 


2. pandas 模块 
# 绘制 散 点 图 


iris.plot(x = 'Petal Width', y = 'Petal Length', kind = 'scatter', 
title = ' 功 尾 花 的 花瓣 宽度 与 长 度 关系 ') 

# 修改 x 轴 和 y 轴 标签 

plt.xlabel ( "花瓣 宽 度 ' ) 

plt.ylabel (' 花 固 长 度 ') 

# 显示 图 形 

plt.show() 


尽管 使 用 这 两 个 模块 都 可 以 非常 方便 地 绘制 出 散 点 图 ， 但 是 绘制 分 组 散 点 图 会 稍微 复杂 一 点 。 
如 果 读 者 使 用 seaborn 模块 中 的 Implot 函数 ， 那 么 绘制 分 组 散 点 图 就 太 简单 了 ， 而 且 该 函数 还 可 以 
根据 散 点 图 添加 线性 拟 合 线 。 

3. seaborn 模块 

为 了 使 读者 清楚 地 掌握 Implot 函数 的 使 用 方法 ， 有 必要 介绍 一 下 该 函数 的 语法 和 参数 含义 : 


lmplot (x, y, data, hue=None, col=None, row=None, palette=None, col_wrap=None, 
size=5, aspect=1, markers='0', sharex=True, sharey=True, hue order=None, 





col_order=None, row_order=None, legend=True, legend out=True, scatter=True, 
fit reg=True, ci=95, n boot=1000, order=1, logistic=False, lowess=False, 
robust=False, logx=False, x_partial=None, y partial=None, truncate=False, 
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x _ jitter=None, y jitter=None, scatter kws=None, line kws=None) 


XxX,y: 指定 x 轴 和 yy 轴 的 数据 。 

data: 指定 绘图 的 数据 集 。 

hue: 指定 分 组 变量 。 

colrow: 用 于 绘制 分 面 图 形 ， 指 定 分 面 图 形 的 列 向 与 行 向 变量 。 

palette: 为 hue 参数 指定 的 分 组 变量 设置 颜色 。 

col wrap: 设置 分 面 图 形 中 每 行 子 图 的 数量 。 

size: 用 于 设置 每 个 分 面 图 形 的 高 度 。 

aspect: 用 于 设置 每 个 分 面 图 形 的 宽度 ， 宽 度 等 于 size*aspect。 

markers: 设置 点 的 形状 ， 用 于 区 分 hue 参数 指定 的 变量 水 平 值 。 

sharex,sharey: bool 类 型 参数 ， 设 置 绘制 分 面 图 形 时 是 否 共享 x 轴 和 y 轴 ， 默 认为 True。 
hue_order,col order,row_order: 为 hue 参数 、col 参数 和 row 参数 指定 的 分 组 变量 设 值 水 平 值 
顺序 。 

legend: bool 类 型 参数 ， 是 否 显示 图 例 ， 默 认为 True。 

legend_out: bool 类 型 参数 ， 是 否 将 图 例 放置 在 图 框 外 ， 默 认为 True。 

scatter: bool 类 型 参数 ， 是 否 绘制 散 点 图 ， 默 认为 True。 

fit_reg: bool 类 型 参数 ， 是 否 拟 合 线性 回归 ， 默 认为 True。 

ci: 绘制 拟 合 线 的 置信 区 间 ， 默 认为 95% 的 置信 区 间 。 

n_boot: 为 了 估计 置信 区 间 ， 指 定 自助 重 抽样 的 次 数 ， 默 认为 1000 次。 

order: 指定 多 项 式 回归 ， 默 认 指 数 为 1。 

logistic: bool 类 型 参数 ， 是 否 拟 合 逻辑 回归 ， 默 认为 False。 

lowess: bool 类 型 参数 ， 是 否 拟 合 局 部 多 项 式 回 归 ， 默 认为 False。 

robust: bool 类 型 参数 ， 是 否 拟 合 鲁 棒 回归 ， 默 认为 False。 

logx: bool 类 型 参数 ， 是 否 对 x 轴 做 对 数 变换 ， 默 认为 False。 

x_partialy_partial: 为 x 轴 数 据 和 yy 轴 数 据 指 定 控制 变量 ， 即 排除 x_partial 和 y_partial 变量 的 
影响 下 绘制 散 点 图 。 

truncate: bool 类 型 参数 ， 是 否 根据 实际 数据 的 范围 对 拟 合 线 做 截断 操作 ， 默 认为 False。 
x_jittery_jitter: 为 x 轴 变量 或 y 轴 变量 添加 随机 噪声 ， 当 x 轴 数 据 与 y 轴 数 据 比较 密集 时 ， 
可 以 使 用 这 两 个 参数 。 

scatter kws: 设置 点 的 其 他 属性 ， 如 点 的 填充 色 、 边 框 色 、 大 小 等 。 

line kws: 设置 拟 合 线 的 其 他 属性 ， 如 线 的 形状 、 颜 色 、 粗 细 等 。 


该 函数 的 参数 虽然 比较 多 ， 但 是 大 多 数 情况 下 读者 只 需 使 用 几 个 重要 的 参数 ， 如 x、y、hue、 
data 等 。 接 下 来 仍 以 iris 数据 集 为 例 ， 绘 制 分 组 散 点 图 ， 绘 图 代码 如 下 : 


# seaborn 模块 绘制 分 组 散 点 图 
sns.lmplot (x = 'Petal_Width'，# 指定 x 轴 变量 
y = "Petal_Length'，# 指定 Y 轴 变 量 
hue = "Species'，# 指定 分 组 变量 
data = iris，# 指定 绘图 数据 集 
legend_out = False，# 将 图 例 呈现 在 图 框 内 
truncate=True # 根据 实际 的 数据 范围 ， 对 拟 合 线 做 截断 操作 
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) 
# 修改 x 轴 和 y 轴 标签 
plt.xlabel (' 花 状 宽 度 ') 
Plt.ylabel (" 花 瓣 长 度 ') 


# 添加 标题 
plt.title(" 刘 尾 花 的 花瓣 宽度 与 长 度 关系 ') 
# 显示 图 形 
plt.show() 
见 图 6-25。 
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6-25 ”seaborn 库 绘制 的 散 点 图 


如 图 6-25 所 示 ，lmplot 函数 不 仅 可 以 绘制 分 组 散 点 图 ， 还 可 以 对 每 个 组 内 的 散 点 添加 回归 线 
(图 6-25 默认 拟 合 线性 回归 线 ) 。 分 组 效果 的 体现 是 通过 hue 参数 设置 的 ， 如 果 需 要 拟 合 其 他 
归 线 ， 可 以 指定 lowess 参数 〈 局 部 多 项 式 回 归 ) 、logistic 参数 (逻辑 回归 ) 、order 参数 (多 项 式 
回归 ) 和 robust 参数 〈 鲁 棒 回 归 ) 。 

















回 











6.3.2 气泡 图 


上 一 节 所 介绍 的 散 点 图 都 是 反映 两 个 数值 型 变量 的 关系 ， 如 果 还 想 通过 散 点 图 添加 第 三 个 数 
值 型 变量 的 信息 , 一 般 可 以 使 用 气泡 图 。 气泡 图 的 实质 就 是 通过 第 三 个 数值 型 变量 控制 每 个 散 点 的 
大 小 , 点 越 大 , 代表 的 第 三 维 数值 越 高 ， 反之 亦 然 。 接 下 来 将 会 介绍 如 何 通过 Python 绘制 气泡 图 。 

在 上 一 节 中 ,应 用 matplotlib 模块 中 的 scatter 函数 绘制 了 散 点 图 ， 本 节 将 继续 使 用 该 函数 绘制 
气泡 图 。 要 实现 气泡 图 的 绘制 ， 关 键 的 参数 是 s， 即 散 点 图 中 点 的 大 小 ， 如 果 将 数值 型 变量 传递 给 
该 参数 ， 就 可 以 轻松 绘制 气泡 图 了 。 如 果 读 者 对 该 函数 的 参数 含义 还 不 是 很 了 解 ， 可 以 查看 上 一 节 
中 的 参数 含义 说 明 。 

下 面 以 某 超市 的 商品 类 别 销售 数据 为 例 ， 绘 制 销售 额 、 利 润 和 利润 率 之 间 的 气泡 图 ， 探 究 三 
者 之 间 的 关系 ， 绘 图 代码 如 下 : 


# 读 取 数 据 
Prod Category = pd.read excell(r'C:\Users\Administrator\Desktop\SuperMarket .xlsx') 
# 将 利润 率 标准 化 到 [0, 1] 之 间 (因为 利润 率 中 有 负数 )， 然 后 加 上 微小 的 数值 0. 001 
range diff = Prod Category.Profit Ratio.max()-Prod Category.Profit Ratio.min() 
Prod Category['std ratio'] = 

(Prod Category.Profit Ratio-Prod Category.Profit Ratio.min())/range diff + 0.001 
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# 绘制 办 公用 品 的 气泡 图 
plt.scatter (x = Prod Category.Sales[Prod Category.Category == ' 办 公用 品 ']， 
y = Prod _ Category.Profit [Prod Category.Category == ' 办 公用 品 '] 
s = Prod_Category.std_ratio[Prod_Category.Category == ' 办 公用 品 ']*500, 
color = 'steelblue'，1label = ' 办 公用 品 '，alpha = 0.6 
) 
# 绘制 技术 产品 的 气泡 图 
plt.scatter (x = Prod Category.Sales[Prod Category.Category == ' 技 术 产 品 ']， 
y = Prod Category.Profit [Prod Category.Category == ' 技 术 产 品 ']， 
s = Prod Category.std_ratio[Prod Category.Category == ' 技 术 产 品 '] *500， 
color = 'indianred' ，label = ' 技 术 产 品 ',，alpha = 0.6 
) 
# 绘制 家 具 产 品 的 气泡 图 
Pplt.scatter(x = Prod Category.Sales[Prod Category.Category = "家 具 产 品 ']， 
Y = Prod _ Category.Profit [Prod Category.Category == ' 家 具 产品 '] 
s = Prod_Category.std_ratio[Prod_Category.Category == "家 具 产 品 '] *500， 
color = 'black' ，label = ' 家 具 产品 '，alpha = 0.6 


) 
# 添加 x 轴 和 Y 轴 标 签 
Plt.xlabel (' 销 售 额 ') 
Plt.ylabel (' 利 润 ' ) 


# 添加 标题 
plt.title(' 销 售 额 、 利 润 及 利润 率 的 气泡 图 ' ) 
# 添加 图 例 
plt.legend() 
# 显示 图 形 
plt.show() 
见 图 6-26。 
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图 6-26 ”matplotlib 库 绘 制 的 气泡 图 


如 图 6-26 所 示 ， 应 用 scatter 函数 绘制 了 分 组 气泡 图 ， 从 图 中 可 知 ， 办 公用 品 和 家 具 产 品 的 利 
润 率 波动 比较 大 (因为 这 两 类 圆 点 大 小 不 均 ) 。 从 代码 角度 来 看 , 绘图 的 核心 部 分 是 使 用 三 次 scatter 
函数 ， 而 且 代码 结构 完全 一 样 ， 如 果 读 者 对 for 循环 掌握 得 比较 好 ， 完 全 可 以 使 用 循环 的 方式 替换 
三 次 scatter 函数 的 重复 应 用 。 

需要 说 明 的 是 ， 如 果 s 参数 对 应 的 变量 值 小 于 等 于 0， 则 对 应 的 气泡 点 是 无 法 绘制 出 来 的 。 这 
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里 提供 一 个 解决 思路 ， 就 是 先 将 该 变量 标准 化 为 [0.1]， 再 加 上 一 个 非常 小 的 值 ， 如 0.001。 如 上 代 
码 所 示 ， 最 后 对 s 参数 扩大 500 倍 的 目的 就 是 凸显 气泡 的 大 小 。 

遗憾 的 是 ,pandas 模块 和 seaborn 模块 中 没有 绘制 气泡 图 的 方法 或 函数 , 故 这 里 就 不 再 衍生 了 。 
如 果 读 者 确实 需要 绘制 气泡 图 ， 又 觉得 matplotlib 模块 中 的 scatter 函数 用 起 来 比较 灿 琐 ， 可 以 使 用 
Python 的 bokeh 模块 ， 有 关 该 模块 的 详细 内 容 ， 可 以 查看 官方 文档 。 





6.3.3 ”热力 


最 后 介绍 另 一 种 关系 型 数据 的 可 视 化 图 形 ， 即 热力 图 ， 有 时 也 称 之 为 交叉 填充 表 。 该 图 形 最 
典型 的 用 法 就 是 实现 列 联 表 的 可 视 化 , 即 通过 图 形 的 方式 展现 两 个 离散 变量 之 间 的 组 合 关 系 。 读 者 
可 以 借助 于 seaborn 模块 中 的 heatmap 函数 ， 完 成 热力 图 的 绘制 。 按 照 惯 例 ， 首 先 对 该 函数 的 用 法 
及 参数 含义 做 如 下 解释 : 


heatmap (data, vmin=None, vmax=None, cmap=None, center=None, annot=None, fmt='.2g', 
annot kws=None, linewidths=0, linecolor='white', cbar=True, cbar kws = None, 
square=False, xticklabels='auto', yticklabels='auto', mask=None, ax=None) 


data: 指定 绘制 热力 图 的 数据 集 。 

vmin,vmax: 用 于 指定 图 例 中 最 小 值 与 最 大 值 的 显示 值 。 

cmap: 指定 一 个 colormap 对 象 ， 用 于 热力 图 的 填充 色 。 

center: 指定 颜色 中 心 值 ， 通 过 该 参数 可 以 调整 热力 图 的 颜色 深浅 。 

annot: 指定 一 个 bool 类 型 的 值 或 与 data 参数 形状 一 样 的 数组 ， 如 果 为 True， 就 在 热力 图 的 
每 个 单元 上 显示 数值 。 

fmt: 指定 单元 格 中 数据 的 显示 格式 。 

annot kws: 有 关 单 元 格 中 数值 标签 的 其 他 属性 描述 ， 如 颜色 、 大 小 等 。 

linewidths : 指定 每 个 单元 格 的 边框 宽度 。 

linecolor: 指定 每 个 单元 格 的 边框 颜色 。 

cbar: bool 类 型 参数 ， 是 否 用 颜色 条 作为 图 例 ， 默 认为 True。 

square: bool 类 型 参数 ， 是 否 使 热力 图 的 每 个 单元 格 为 正方 形 ， 默 认为 False。 

cbar kws: 有 关 闫 色 条 的 其 他 属性 描述 。 

xticklabels,yticklabels: 指定 热力 图 x 轴 和 y 轴 的 刻度 标签 ， 如 果 为 True， 则 分 别 以 数据 框 的 
变量 名 和 行 名 称 作为 刻度 标签 。 

@ mask: 用 于 突出 显示 某 些 数据 。 

® ”ax: 用 于 指定 子 图 的 位 置 。 


接 下 来 ， 以 某 服装 店 的 交易 数据 为 例 ， 统 计 2009 一 2012 年 每 个 月 的 销售 总 额 ， 然 后 运用 如 上 
介绍 的 heatmap 函数 对 统计 结果 进行 可 视 化 展现 ， 具 体 代码 如 下 : 


# 读 取 数 据 

Sales = pd.read excel(r'C:\Users\Administrator\Desktop\Sales.xlsx') 
# 根据 交易 日 期 ， 衍 生出 年 份 和 月 份 字段 

Sales['year'] = Sales.Date.dt.year 

Sales['month'] = Sales.Date.dt.month 
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# 统计 每 年 各 月 份 的 销售 总 额 


Summary = Sales.pivot _ table (index = 'month', columns = 'year', values = 'Sales', aggfunc = 


np.sum) 
见 表 6-3。 
表 6-3 数据 的 汇总 
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如 表 6-3 所 示 , 它 是 列 联 表 的 格式 ， 反映 的 是 每 年 各 月 份 的 销售 总 额 。 很 显然 , 通过 肉眼 是 无 
法 迅速 发 现 销售 业绩 在 各 月 份 中 的 差异 的 ,如 果 将 数据 表 以 热力 图 的 形式 展现 ,问题 就 会 简单 很 多 。 


# 绘制 热力 图 

sns.heatmap (data = Summary，# 指定 绘图 数据 
cmap = 'PuBuGn'，# 指定 填充 色 
linewidths = .1，# 设置 每 个 单元 格 边框 的 宽度 
annot = True，# 显示 数值 
fmt = ' .le' # 以 科学 计算 法 显示 数据 
) 

# 添 加 标题 

plt .title(' 每 年 各 月 份 销售 总 额 热 力图 ') 

# 显示 图 形 

Plt.show() 


见 图 6-27。 
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6-27 seaborn 库 绘制 的 热力 图 
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如 图 6-27 所 示 就 是 将 表格 进行 可 视 化 的 结果 ， 每 个 单元 格 颜色 的 深浅 代表 数值 的 高 低 ， 通 过 
颜色 就 能 迅速 发 现 每 年 各 月 份 销售 情况 的 好 坏 。 





6.4 多 个 图 形 的 合并 


工作 中 往往 会 根据 业务 需求 ， 将 绘制 的 多 个 图 形 组 合 到 一 个 大 图 框 内 ， 形 成 类 似 仪表 板 的 效 
果 。 针 对 这 种 情况 ， 如 何 应 用 Python 将 前 面 所 学 的 各 种 图 形 汇总 到 一 个 图 表 中 ， 这 将 是 本 节 所 要 








关于 多 种 图 形 的 组 合 ， 可 以 使 用 matplotlib 模块 中 的 subplot2grid 函数 。 这 个 函数 的 灵活 性 非 
常 高 ， 构 成 的 组 合 图 既 可 以 是 mXn 的 矩阵 风格 ， 也 可 以 是 跨行 或 跨 列 的 矩阵 风格 。 接 下 来 ， 对 该 
函数 的 用 法 和 参数 含义 加 以 说 明 


subplot2grid(shape, loc, rowspan=1, colspan=]1, **kwargs) 


shape: 指定 组 合 图 的 框架 形状 ， 以 元 组 形式 传递 ， 如 2 x3 的 矩阵 可 以 表示 成 (2.3)。 
loc: 指定 子 图 所 在 的 位 置 ， 如 shape 中 第 一 行 第 一 列 可 以 表示 成 (0,0)。 

rowspan: 指定 某 个 子 图 需要 跨 几 行 。 

colspan: 指定 某 个 子 图 需要 跨 几 列 。 


为 了 使 读者 理解 函数 中 的 四 个 参数 ， 这 里 以 2X3 的 组 图 布局 为 例 ， 说 明子 图 位 置 与 跨行 、 跨 
列 的 概念 ， 如 图 6-28 所 示 。 
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图 6-28 跨行 与 跨 列 的 效果 图 


这 两 种 布局 的 前 提 都 需要 设置 shape 参数 为 (2,3)， 所 不 同 的 是 ， 左 图 一 共 需 要 布置 6 个 图 形 ; 
右 图 只 需要 布置 4 个 图 形 , 其 中 第 三 列 跨 了 两 行 (rowspan 需要 指定 为 2), 第 二 行 跨 了 两 列 (colspan 
需要 指定 为 2)。 图 框 中 的 元 组 值 代表 了 子 图 的 位 置 。 接 下 来 以 某 集 市 商品 交易 数据 为 例 ， 绘 制 仿 
跨行 和 跨 列 的 组 合 图 ， 代 码 如 下 : 

# 读 取 数 据 

Prod Trade = pd.read excel (z'C:\Users\Administrator\Desktop\Prod Tragde.xlsx') 

# 衍生 出 交易 年 份 和 月 份 字段 


Prod_Trade['year'] = Prod Trade.Date.dt.year 
Prod Trade['month'] = Prod Trade.Date.dt.month 


# 设置 大 图 框 的 长 和 高 
plt.figure (figsize = (12,6)) 
# 设置 第 一 个 子 图 的 布局 
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各 等 级 订单 比例 2012 年 各 月 销售 趋势 各 运输 方式 成 本 分 布 








图 6-29 跨行 与 跨 列 的 图 形 展示 


如 图 6-29 所 示 , 构成 了 2X3 风格 的 组 合 图 ， 其 中 两 幅 子 图 是 跨行 和 跨 列 的 ， 而 且 这 里 特地 选 
了 matplotlib 模块 、pandas 模块 和 seabron 模块 绘制 子 图 ， 目 的 是 让 读者 能 够 掌握 不 同 模块 图 形 的 
组 合 。 针 对 如 上 代码 ， 需 要 讲解 几 个 重要 的 知识 点 : 
@ “在 绘制 每 一 幅 子 图 之 前 ， 都 需要 运用 subplot2grid 函数 控制 子 图 的 位 置 ， 并 传递 给 一 个 变量 
对 象 (如 代码 中 的 ax1、ax2 等 )。 
@ 为 了 使 子 图 位 置 (ax1、ax2 等 ) 产生 效果 ， 不 同 的 绘图 模块 需要 应 用 不 同 的 方法 。 如 果 通 过 
matplotlib 模块 绘制 子 图 ， 则 必须 使 用 axl.plot_function 的 代码 语法 (如 上 代码 中 ， 绘 制 饼 图 
的 过 程 ) 如 果 通 过 pandas 模块 或 seaborn 模块 绘制 子 图 ， 则 需要 为 绘图 “方法 ”或 函数 指定 
ax 参数 ( 如 上 代码 中 ， 绘 制 折线 图 、 直 方 图 和 箱 线 图 的 过 程 )。 
@ ”如 果 为 子 图 添加 标题 、 坐 标 轴 标 签 、 刻度 值 标签 等 ,不 能 直接 使 用 plt.title、 plt.xlabel、 plt.xticks 
等 函数 ， 而 是 换 成 axl.set *# 的 形式 (可 参考 如 上 代码 中 对 子 图 标题 、 坐 标 轴 标 签 的 设置 )。 
@ ”由 于 子 图 之 间 的 默认 宽 间距 和 高 间距 不 太 合理 ， 故 需要 通过 subplots_adjust 函数 重新 修改 子 
图 之 间 的 水 平 间距 和 垂直 间距 (如 倒数 第 二 行 代码 所 示 )。 


6.5 ”本章 小 结 


本 章 的 主题 是 关于 数据 的 可 视 化 ， 通 过 每 一 个 具体 的 案例 介绍 了 有 关 matplotlib 模块 、pandas 
模块 和 seaborn 模块 的 绘图 函数 和 参数 含义 ， 分 别针 对 离散 型 数据 、 数 值 型 数据 和 关系 型 数据 讲解 
了 最 为 常用 的 可 视 化 图 形 , 包括 饼 图 、 条 形 图 、 直方 图 、 核 密度 曲线 、 箱 线 图 、 小 提琴 图 、 折 线 图 、 
散 点 图 、 气 泡 图 和 热力 图 。 最 后 ， 借 助 于 subplot2grid 函数 实现 各 种 模块 下 图 形 的 组 合 。 

通过 Python 完成 数据 可 视 化 的 模块 还 有 很 多 种 ， 例 如 ggplot、bokeh、pygal、plotly 等 ， 读 者 
可 以 前 往 各 自 的 官网 查看 详细 的 文档 说 明 ， 相 信 读 者 也 会 喜欢 上 其 中 的 几 个 模块 。 需 要 注意 的 是 ， 
Python 绘图 的 核心 模块 是 matplotlib， 其 他 模块 的 绘图 多 多 少 少 都 会 依赖 于 该 模块 ， 所 以 读者 一 定 
要 牢 牢 掌握 matplotlib 模块 中 的 重要 知识 点 。 

本 章 一 共 讲解 了 10 种 常用 的 统计 图 形 ， 为 了 使 读者 方便 记忆 这 些 绘 图 函数 和 “方法 ”， 特 将 
本 文 涉及 的 绘图 函数 汇总 如 下 : 
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Python 模块 Python 函数 或 方法 函数 说 明 
用 于 设置 图 框 长 度 和 高 度 的 函数 
绘制 饼 图 的 函数 
绘制 垂直 条 形 图 的 函数 
绘制 水 平 条 形 图 的 函数 
绘制 直方 图 的 函数 
boxplot 绘制 箱 线 图 的 函数 
plot 绘制 折线 图 的 函数 
scatter 绘制 散 点 图 的 函数 
gca Get Currency Axes〔 获 取 默 认 轴 的 所 有 属性 值 ) 
matpintib title 添加 标题 的 函数 
xlabel,ylabel 添加 或 修改 x 轴 和 y 轴 标 签 的 函数 
xticks,yticks 添加 x 轴 和 y 轴 刻 度 值 的 函数 
在 图 中 添加 文本 的 函数 
设置 图 形 轴 属 性 ， 绘 制 饼 图 时 需 使 用 该 函数 
用 于 设 定 绘图 参数 ， 如 防止 中 文 乱码 
用 于 显示 图 形 的 函数 
| legend | 用 于 显示 图 例 的 函数 
用 于 布局 子 图 位 置 的 函数 
用 于 调整 子 图 之 问 垂直 和 水 平 问 距 的 函数 
pandas | pot | 基于 序列 和 数据 框 的 绘图 “方法 ” 
绘制 条 形 图 的 函数 
绘制 直方 图 、 核 密度 曲线 的 函数 
seaborn boxplot 绘制 箱 线 图 的 函数 


[mo 
绘制 小 提琴 图 的 函数 

| mplot | 绘制 散 点 图 及 拟 合 线 的 函数 
[heamap | 


heatmap 绘制 热力 图 的 函数 





线性 回归 预测 模型 


线性 回归 模型 属于 经 典 的 统计 学 模型 ， 该 模型 的 应 用 场景 是 根据 已 知 的 变量 〈 自 变量 ) 来 预 
测 某 个 连续 的 数值 变量 〈 因 变量 ) 。 例 如 ， 餐 厅 根 据 每 天 的 营业 数据 〈 包 括 菜谱 价格 、 就 餐 人 数 、 
预定 人 数 、 特 价 菜 折扣 等 ) 预测 就 餐 规模 或 营业 额 ; 网 站 根据 访问 的 历史 数据 (包括 新 用 户 的 注册 
量 、 老 用 户 的 活跃 度 、 网 页 内 容 的 更 新 频率 等 ) 预测 用 户 的 支付 转化 率 ; 医院 根据 患者 的 病历 数据 
(如 体检 指标 、 药 物 服 用 情况 、 平 时 的 饮食 习惯 等 ) 预测 某 种 疾病 发 生 的 概率 。 

站 在 数据 挖掘 的 角度 看 待 线性 回归 模型 ， 它 属于 一 种 有 监督 的 学 习 算 法 ， 即 在 建 模 过 程 中 必 
须 同时 具备 自 变量 x 和 因 变 量 y。 本 章 的 重点 就 是 介绍 有 关 线 性 回归 模型 背后 的 数学 原理 和 应 用 实 
战 ， 通 过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 如 下 内 容 
一 元 线性 回归 模型 的 实战 ; 

多 元 线性 回归 模型 的 系数 推导 ; 
线性 回归 模型 的 假设 检验 ; 
线性 回归 模型 的 诊断 ; 
线性 回归 模型 的 预测 。 


7.1 一 元 线性 回归 模型 


一 元 线性 回归 模型 也 被 称 为 简单 线性 回归 模型 ， 是 指 模型 中 只 含有 一 个 自 变 量 和 一 个 因 变量 ， 
用 来 建 模 的 数据 集 可 以 表示 成 {(x1y1), (Xz,y2),…, (xn,yn)}。 其 中 ， xi; 表示 自 变量 x 的 第 i 个 值 ，y; 表 
示 因 变量 y 的 第 i 个 值 , n 表 示 数 据 集 的 样本 量 。 当 模型 构建 好 之 后 , 就 可 以 根据 其 他 自 变 量 x 的 值 ， 
预测 因 变 量 y 的 值 ， 该 模型 的 数学 公式 可 以 表示 成 : 
y=at+bx+e 
如 上 公式 所 示 ， 该 模型 特别 像 初中 所 学 的 一 次 函数 。 其 中 ，a 为 模型 的 截 距 项 ，b 为 模型 的 斜 





第 7 章 线性 回归 预测 模型 | 151 





率 项 ， 


2 为 模型 的 误差 项 。 模 型 中 的 a 和 b 统 称 为 回归 系数 ， 误 差 项 的 存在 主要 是 为 了 平衡 等 号 两 


边 的 值 ， 通 常 被 称 为 模型 无 法 解释 的 部 分 。 

为 了 使 读者 理解 简单 线性 回归 模型 的 数学 公式 ， 这 里 不 妨 以 收入 数据 集 为 例 ， 探 究 工作 年 限 
与 收入 之 间 的 关系 。 在 第 6 章 的 数据 可 视 化 部 分 已 经 介绍 了 有 关 散 点 图 的 绘制 , 下 面 将 绘制 工作 年 
限 与 收入 的 散 点 图 ， 并 根据 散 点 图 添加 一 条 拟 合 线 : 


# 


导入 第 三 方 模块 


import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 


# 


导入 数据 集 


income = pd.read csv(r'C:\Users\Administrator\Desktop\Salary Data.csv') 


绘制 散 点 图 


sns.lmplot (x = 'YearsExperience', y = 'Salary', data = income, ci = None) 


提 
P 


显示 图 形 
1t.show() 


见 图 7-1。 


azooo9 
aoooon 
§ so 
加 
oo000 


40000 








5 
YearsExperience 


图 7-1 工作 经 验 与 薪资 的 散 点 图 


图 7-1 反映 的 就 是 自 变量 YearsExperience 与 因 变 量 Salary 之 间 的 散 点 图 ， 从 散 点 图 的 趋势 来 
看 ， 工 作 年 限 与 收入 之 间 存 在 明显 的 正 相关 关系 ， 即 工作 年 限 越 长 ， 收 入 水 平 越 高 。 图 中 的 直线 就 
是 关于 散 点 的 线性 回归 拟 合 线 ， 从 图 中 可 知 ， 每 个 散 点 基本 上 都 是 围绕 在 拟 合 线 附 近 。 虽 然 通过 可 
视 化 的 方法 可 以 得 知 散 点 间 的 关系 和 拟 合 线 ， 但 如 何 得 到 这 条 拟 合 线 的 数学 表达 式 呢 ? 





拟 合 线 的 求解 


本 节 的 内 容 就 是 关于 简单 线性 回归 模型 的 求解 ， 即 如 何 根据 自 变量 x 和 因 变 量 y， 求 解 回归 系 


数 a 和 














b。 前 面 已 经 提 到 ， 误 差 项 e 是 为 了 平衡 等 号 两 边 的 值 ， 如 果 拟 合 线 能 够 精确 地 捕捉 到 每 一 


个 点 (所 有 的 散 点 全 部 落 在 拟 合 线 上 ) ， 那 么 对 应 的 误差 项 。 应 该 为 0。 按 照 这 个 思路 来 看 ， 要 想 


得 到 百 





E 想 的 拟 合 线 ， 就 必须 使 误差 项 达到 最 小 。 由 于 误差 项 是 y 与 a + bx 的 差 ， 结 果 可 能 为 正 值 


或 负 值 ， 因 此 误差 项 * 达到 最 小 的 问题 需 转 换 为 误差 平方 和 最 小 的 问题 〈 最 小 二 乘法 的 思路 ) 。 误 
差 平方 和 的 公式 可 以 表示 为 
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J(a,b)= 这 = D0 — [a+ bxi])? 


由 于 建 模 时 的 自 变量 值 和 因 变 量 值 都 是 已 知 的 ， 因 此 求解 误差 平方 和 最 小 值 的 问题 就 是 求解 
函数 J(a,b) 的 最 小 值 ， 而 该 函数 的 参数 就 是 回归 系数 a 和 b。 
该 目标 函数 其 实 就 是 一 个 二 元 二 次 函数 ,如 需 使 得 目标 函数 (a,b) 达 到 最 小 , 可 以 使 用 偏 导数 
的 方法 求解 出 参数 a 和 b， 进 而 得 到 目标 函数 的 最 小 值 。 关 于 目标 函数 的 求 导 过 程 如 下 : 
第 一 步 : 展开 平方 项 
J(a,b)= 08 十 a2 + b2x? + 2abxi — 2ay; — 2bxiyi) 


i=1 





第 二 步 : 设 偏 导数 为 0 


n 
a 
= YO0+2a+0+2bn 2y+0) =0 


i=1 

0 _ 

Fp = 2 0+O+2bx +2axi+0—2xiyi)=0 
i=1 


第 三 步 :， 和 公式 转换 


n n 
9/ 
元 =2na+20》x-2》=0 


i i=1 
n n n 
G) 
= 2b) x +2a) a -2 》 x =0 
i=1 i=1 i=1 
第 四 步 : 化解 
二 全 Pi yi = b Di xi 
n n 
n n n 
Diliy: bPixi 
DY Gr 2 )>w->xo=0 
i=1 i=1 i=1 
第 五 步 : 将 参数 a 带 入 ， 求 解 b 
a=y—bx 


pu PixXiyi — Ty Xi Pi yi 
1 x? 一 ET Xi)? 
如 上 推导 结果 所 示 , 参数 a 和 4b 的 值 都 是 关于 自 变量 x 和 因 变 量 y 的 公式 。 接 下 来 , 根据 该 公式 ， 
利用 Pyhton 计算 出 回归 模型 的 参数 值 a 和 b。 
# 样本 量 


n = income.shape[0] 
# 计算 自 变量 、 因 变量 、 自 变量 平方 、 自 变量 与 因 变量 乘积 的 和 


sum x = income .YearsExperience.sum() 





sum y = income.Salary.sum() 

sum x2 = income.YearsExperience.pow(2) .sum() 
xy = income.YearsExperience * income.Salary 
sum xy = xy.sum() 
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# 根据 公式 计算 回归 模型 的 参数 

b = (sum xy-sum x*sum y/n)/(sum x2-sum x**2/n) 

a = income.Salary.mean () -b*income .YearsExperience.mean () 
# 打印 出 计算 结果 

print (' 回 归 参 数 a 的 值 : ' , a) 

Print (' 回 归 参 数 b 的 值 : ' ,b) 


名 的 他 25792.200198668666 

回归 参数 b 的 值 : 9449.962321455081 

如 上 所 示 ， 利 用 Python 的 计算 功能 ， 最 终 得 到 模型 的 回归 参数 值 。 你 可 能 会 觉得 麻烦 ， 为 了 
计算 回归 模型 的 参数 还 得 人 工 写 代码 ， 是 否 有 现成 的 第 三 方 模块 可 以 直接 调用 呢 ? 答案 是 肯定 的 ， 
这 个 模块 就 是 statsmodels, 它 是 专门 用 于 统计 建 模 的 第 三 方 模块 如 需 实现 线性 回归 模型 的 参数 求 
解 ， 可 以 调用 子 模块 中 的 ols 函数 。 有 关 该 函数 的 语法 及 参数 含义 可 见 下 方 : 


ols(formula, data, subset=None, drop_cols=None) 


formula: 以 字符 囊 的 形式 指定 线性 回归 模型 的 公式 ， 如 'y~x' 就 表示 简单 线性 回归 模型 。 
data: 指定 建 模 的 数据 集 。 

subset: 通过 bool 类 型 的 数组 对 象 ， 获 取 data 的 子 集 用 于 建 模 。 

drop_cols: 指定 需要 从 data 中 删除 的 变量 。 


这 是 一 个 语法 非常 简单 的 函数 ， 而 且 参 数 也 通俗 易 懂 ， 但 该 函数 的 功能 却 很 强大 ， 不 仅 可 以 
计算 模型 的 参数 , 还 可 以 对 模型 的 参数 和 模型 本 身 做 显著 性 检验 、 计 算 模型 的 决定 系数 等 。 接 下 来 ， 
利用 该 函数 计算 模型 的 参数 值 ， 进 而 验证 手工 方式 计算 的 参数 是 否 正确 : 

# 导入 第 三 方 模块 


import statsmodels.api as sm 








# 利用 收入 数据 集 ， 构 建 回 归 模 型 
fit = sm.formula.ols('Salary ~ YearsExperience', data = income) .fit() 
# 返回 模型 的 参数 值 


fit.params 


Out: 

Intercept 25792.200199 
YearsExperience 9449.962321 
dtype: float64 


如 上 结果 所 示 , Intercept 表示 截 距 项 对 应 的 参数 值 , YearsExperience 表示 自 变 量 工作 年 限 对 应 
的 参数 值 。 对 比 发 现 ， 函 数 计算 出 来 的 参数 值 与 手工 计算 的 结果 完全 一 致 ， 所以, 关于 收入 的 简单 
线性 回归 模型 可 以 表示 成 : 

Salary = 25792.20 + 9449.96YearsExperience 


7.2 ”多 元 线性 回归 模型 





读者 会 不 会 觉得 一 元 线性 回归 模型 比较 简单 呢 ? 它 反映 的 是 单个 自 变量 对 因 变 量 的 影响 ， 然 


继 
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而 实际 情况 中 , 影响 因 变 量 的 自 变量 往往 不 止 一 个 , 从 而 需要 将 一 元 线性 回归 模型 扩展 到 多 元 线性 
回归 模型 。 

如 果 构 建 多 元 线性 回归 模型 的 数据 集 包含 n 个 观测 、p+1l 个 变量 (其 中 p 个 自 变量 和 1 个 因 变 
量 ) ， 则 这 些 数据 可 以 写成 下 方 的 矩阵 形式 : 


yi X11 X12 … Xp 
yn rp 
其 中 ,xij 代 表 第 个 i 行 的 第 j 个 变量 值 。 如 果 按 照 一 元 线性 回归 模型 的 逻辑 ， 那么 多 元 线性 回归 
模型 应 该 就 是 因 变量 y 与 自 变量 X 的 线性 组 合 ， 即 可 以 将 多 元 线性 回归 模型 表示 成 : 
y=Pot+PBixi +PB2xz t+:…+PBpxn+e 
根据 线性 代数 的 知识 ， 可 以 将 上 式 表示 成 y = XB + =s。 其 中 ， 有 为 p x 1 的 一 维 向 量 ,代表 了 多 
元 线性 回归 模型 的 偏 回归 系数 ，e 为 n x 1 的 一 维 向 量 ， 代 表 了 模型 拟 合 后 每 一 个 样本 的 误差 项 。 





Xn1 Xn2 : 








7.2.1 回归 模型 的 参数 求解 


在 多 元 线性 回归 模型 所 涉及 的 数据 中 ， 因 变量 y 是 一 维 向 量 ， 而 自 变量 X 为 二 维 矩阵 ， 所 以 对 
于 参数 的 求解 不 像 一 元 线性 回归 模型 那样 简单 , 但 求解 的 思路 是 完全 一 致 的 。 为 了 使 读者 掌握 多 元 
线性 回归 模型 参数 的 求解 过 程 ， 这 里 把 详细 的 推导 步骤 罗列 到 下 方 : 


第 一 步 : 构建 目标 函数 
2 
/8) = = 0 -xp) 
根据 线性 代数 的 知识 ， 可 以 将 向 量 的 平方 和 公式 转换 为 向 量 的 内 积 ， 接 下 来 需要 对 该 式 进行 
平方 项 的 展现 。 
第 二 步 :展开 平方 项 





J(8)=(y — XB)'(y — XB) 
=(y"—P'X")(y— Xp) 
= (yy—y'XB—PB'X'y+B'X'XB) 
由 于 上 式 中 的 y'XB 和 B'X'y 均 为 常数 ， 并 且 常 数 的 转 置 就 是 其 本 身 ， 因 此 y’XB 和 B'X'y 是 相等 
的 。 接 下 来 ， 对 目标 函数 求 参 数 B 的 偏 导数 。 
第 三 步 : 求 偏 导 





yD (0 一 Xy 一 Xy 十 2X'XB) =0 
op 
如 上 式 所 示 ， 根 据 高 等 数学 的 知识 可 知 ， 和 欲求 目标 函数 的 极 值 ， 一 般 都 需要 对 目标 函数 求 导 
数 ， 再 令 导 函数 为 0， 进 而 根据 等 式 求 得 导 函 数 中 的 参数 值 。 
第 四 步 : 计算 偏 回归 系 数 的 值 





XXB = X'y 
B = OXIX'y 
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经 过 如 上 四 步 的 推导 , 最终 可 以 得 到 偏 回 归 系 数 B 与 自 变 量 X、 因 变量 y 的 数学 关系 。 这 个 求解 
过 程 也 被 成 为 “最 小 二 乘法 ”。 基 于 已 知 的 偏 回 归 系 数 B 就 可 以 构造 多 元 线性 回归 模型 。 前 文 也 提 
到 ， 构 建 模 型 的 最 终 目的 是 为 了 预测 ， 即 根据 其 他 已 知 的 自 变量 X 的 值 预测 未 知 的 因 变 量 y 的 值 。 


7.2.2 ”回归 模型 的 预测 


如 果 已 经 得 知 某 个 多 元 线性 回归 模型 y = po + Bixi + Bzxz 十 … 十 Bpxn， 当 有 其 他 新 的 自 变 量 
值 时 ， 就 可 以 将 这 些 值 带 入 如 上 的 公式 中 ， 最 终 得 到 未 知 的 y 值 。 在 Python 中， 实现 线性 回归 模型 
的 预测 可 以 使 用 predict“ 方 法 ”， 关 于 该 “方法 ”的 参数 含义 如 下 : 

predict (exog=None, transform=True) 

@ exog: 指定 用 于 预测 的 其 他 自 变 量 的 值 。 

etransform: bool 类 型 参数 ， 预 测 时 是 否 将 原始 数据 按照 模型 表达 式 进行 转换 ， 默 认为 True。 

接 下 来 将 基于 statsmodels 模块 对 多 元 线性 回归 模型 的 参数 进行 求解 ， 进 而 依据 其 他 新 的 自 变 
量 值 实现 模型 的 预测 功能 。 这 里 不 妨 以 某 产品 的 利润 数据 集 为 例 ， 该 数据 集 包 含 5 个 变量 ， 分 别 是 
产品 的 研发 成 本 、 管 理 成 本 、 市 场 营销 成 本 、 销 售 市 场 和 销售 利润 ， 数 据 集 的 部 分 截图 如 表 7-1 所 


示 。 





表 7-1 待 建 模 的 数据 集 






































165349.2| 136897.8| 471784.1|New York | 192261.83| 
162597.7| 151377.59 | 443898.53|California 191792.06| 
153441.51 101145.55 407934.54|Florida “| 191050.39 
144372.41 118671.85 383199.62|New York | 182901.99| 
142107.34| 91391.77 366168.42|Florida 166187.94| 
131876.9| 99814.71 362861.36|New York | 156991.12| 
134615.46 147198.87 127716.82|California | 156122.51| 
130298.13 145530.06 323876.68|Florida 155752.6| 
120542.52| 148718.95 | 311613.29|New York | 152211.77| 
123334.88| 108579.17| 304981.62 |California | 149759.96| 
101913.08| 110594.11 229160.95|Florida a | 146121.95| 
100671.96 | 91790.61 249744.55 |California 144259.4| 
93863.75 127320.38| 249839.44|Florida 141585.52| 

















表 7-1 中 数据 集中 的 Profit 变量 为 因 变 量 ， 其 他 变量 将 作为 模型 的 自 变量 。 需 要 注意 的 是 ， 数 
据 集中 的 State 变量 为 字符 型 的 离散 变量 ， 是 无 法 直接 带 入 模型 进行 计算 的 ， 所 以 建 模 时 需要 对 该 
变量 进行 特殊 处 理 。 有 关 产 品 利润 的 建 模 和 预测 过 程 如 下 代码 所 示 : 

# 导入 模块 


from sklearn import model selection 


# 导入 数据 

Profit = pd.read excel(r'C:\Users\Administrator\Desktop\Predict to Profit.xlsx') 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 

train, test = model selection.train test split(Profit, test size = 0.2, random state=1234) 

# 根据 train 数据 集 建 模 

model = sm.formula.ols('Profit ~ RD Spend + Rdministration + Marketing Spend + C(State)'，data 
= train) .fit() 

print (" 模 型 的 偏 回 归 系数 分 别 为 : \n'，model .params) 

# 删除 test 数据 集中 的 Profit 变量 ， 用 剩 下 的 自 变量 进行 预测 

test_X = test.drop (labels = 'Profit', axis = 1) 


156 | ”从 零 开始 学 Python 数据 分 析 与 挖掘 





pred = model.predict(exog = test_X) 
print (' 对 比 预测 值 和 实际 值 的 差异 : \n',pd.DataFrame ({'Prediction':pred, 'Real':test.Profit})) 


out: 
模型 的 偏 回 归 系 数 分 别 为 : 
Intercept 58581.516503 
C(State) [T.Florida] 927.394424 
Cl(State) [T.New York] -513.468310 
RD Spend 0.803487 
Administration -0.057792 
Marketing_Spend 0.013779 
dtype: float64 
对 比 预 测 值 和 实际 值 的 差异 : 

Prediction Real 


8 150621.345802 152211.77 
48 55513.218079 35673.41 
14 150369.022458 132602.65 
42 74057.015562 71498.49 
29 103413.378282 101004.64 
44 67844.850378 65200.33 
4 173454.059692 166187.94 
31 99580.888894 97483.56 
13 128147.138397 134307.35 
18 130693.433835 124266.90 


如 上 结果 所 示 ， 得 到 多 元 线性 回归 模型 的 回归 系数 及 测试 集 上 的 预测 值 ， 为 了 比较 ， 将 预测 
值 和 测试 集中 的 真实 Profit 值 罗 列 在 一 起 。 针 对 如 上 代码 需要 说 明 三 点 : 
e 为 了 建 模 和 预测 ， 将 数据 集 拆 分 为 两 部 分 ， 分 别 是 训练 集 ( 占 80% ) 和 测试 集 ( 占 20% )， 
训练 集 用 于 建 模 ， 测 试 集 用 于 模型 的 预测 。 
”由 于 数据 集中 的 State 变量 为 非 数 值 的 离散 变量 , 故 建 模 时 必须 将 其 设置 为 哑 变 量 的 效果 ， 实 
现 方式 很 简单 ， 将 该 变量 套 在 CO 中 ， 表 示 将 其 当 作 分 类 (Category ) 变量 处 理 。 
@ 对 于 predict“ 方 法 ”来 说 ， 输 入 的 自 变量 X 与 建 模 时 的 自 变 量 8 必 须 保 持 结构 一 致 ， 即 变量 名 

和 变量 类 型 必须 都 相同 ， 这 就 是 为 什么 代码 中 需要 将 test 数据 集 的 Profit 变量 删除 的 原因 。 


对 于 输出 的 





回归 系数 结果 ,读者 可 能 会 感到 疑惑 ,为 什么 字符 型 变量 State 对 应 两 个 回 





归 系 数 ， 


而 且 标注 了 Florida 和 New York。 那 是 因为 字符 型 变量 State 含有 三 种 不 同 的 值 ,分 别 是 California、 
Florida 和 New York, 在 建 模 时 将 该 变量 当 作 哑 变 量 处 理 ,所 以 三 种 不 同 的 值 就 会 衍生 出 两 个 变量 ， 
分 别 是 State[Florida] 和 State[New York]， 而 另 一 个 变量 State[Califormia] 就 成 了 对 照 组 。 

正如 建 模 中 的 代码 所 示 ， 将 State 变量 套 在 CO 中 ， 就 表示 State 变量 需要 进行 哑 变 量 处 理 。 但 
是 这 样 做 会 存在 一 个 缺陷 ， 那 就 是 无 法 指定 变量 中 的 某 个 值 作为 对 照 组 ， 正 如 模型 结果 中 默认 将 
State 变量 的 Califomia 值 作 为 对 照 组 〈 因 为 该 值 在 三 个 值 中 的 字母 顺序 是 第 一 个 ) 。 如 需 解 决 这 个 
缺陷 ， 就 要 通过 pandas 模块 中 的 get_dummies 函数 生成 哑 变 量 ， 然 后 将 所 需 的 对 照 组 对 应 的 哑 变 





量 删 除 即 可 。 为 了 使 读者 明 

















作为 对 照 组 ， 代 码 如 下 : 
# 生成 由 State 变量 衍生 的 哑 变 量 


dummies = pd.get dummies (Profit.State) 


# 将 哑 变 量 与 原始 数据 集 水 平 合并 


该 解决 方案 ， 这 里 不 妨 重 新 建 模 ， 并 以 State 变量 中 的 New York 值 
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Profit New = pd.concat ([Profit, dummies], axis = 1) 
# 删除 State 变量 和 california 变量 (因为 State 变量 已 被 分 解 为 哑 变 量 ，New York 变量 需要 作为 参照 组 ) 
Profit New.drop(labels = ['State', 'New York'], axis = 1, inplace = True) 


# 拆 分 数据 集 Profit_New 

train, test = model selection.train test split(Profit New, test size = 0.2, 
random state=1234) 

# 建 模 

model2 = sm.formula.ols('Profit ~ RD Spend + Rdministration + Marketing Spend + Florida + 
California', data = train) .fit() 

print ('" 模 型 的 偏 回归 系数 分 别 为 ，\n' ，mode12.params) 


out: 

模型 的 偏 回归 系数 分 别 为 : 

Intercept 58068.048193 
RD Spend 0.803487 
Rdministration -0.057792 
Marketing Spend 0.013779 
Florida 1440.862734 
California 513.468310 


dtype: float64 


如 上 结果 所 示 ， 从 离散 变量 State 中 衍生 出 来 的 哑 变 量 在 回归 系数 的 结果 里 只 保留 了 Florida 
和 Califomia, 而 New York 变量 则 作为 了 参照 组 ,以 该 模型 结果 为 例 , 得 到 的 模型 公式 可 以 表达 为 : 


Profit = 58068.05 + 0.80RD_Spend — 0.06Administation + 0.01Marketing Spend 
十 1440.86Florida + 513.47California 


虽然 模型 的 回归 系数 求解 出 来 了 ， 但 从 统计 学 的 角度 该 如 何 解释 模型 中 的 每 个 回归 系数 呢 ? 
下 面 分 别 以 研发 成 本 RD_Spend 变量 和 哑 变 量 Florida 为 例 ， 解 释 这 两 个 变量 对 模型 的 作用 : 在 其 
他 变量 不 变 的 情况 下 , 研发 成 本 每 增加 1 美元 , 利润 会 增加 0.80 美元 ; 在 其 他 变量 不 变 的 情况 下 ， 
以 New York 为 基准 线 ， 如 果 在 Florida 销售 产品 ， 利 润 会 增加 1440.86 美元 。 

关于 产品 利润 的 多 元 线性 回归 模型 已 经 构建 完成 ， 但 是 该 模型 的 好 与 坏 并 没有 相应 的 结论 ， 
还 需要 进行 模型 的 显著 性 检验 和 回归 系数 的 显著 性 检验 。 在 下 一 节 , 将 重点 介绍 有 关 线 性 回归 模型 
中 的 几 点 重要 假设 检验 。 

















7.3 ”回归 模型 的 假设 检验 


模型 的 显著 性 检验 是 指 构成 因 变 量 的 线性 组 合 是 否 有 效 ， 即 整个 模型 中 是 否 至 少 存在 一 个 自 
变量 能 够 真正 影响 到 因 变 量 的 波动 。 该 检验 是 用 来 衡量 模型 的 整体 效应 。 回归 系数 的 显著 性 检验 是 
为 了 说 明 单个 自 变量 在 模型 中 是 否 有 效 , 即 自 变量 对 因 变 量 是 否 具 有 重要 意义 。 这 种 检验 则 是 出 于 
对 单个 变量 的 肯定 与 否 。 

模型 的 显著 性 检验 和 回归 系数 的 显著 性 检验 分 别 使 用 统计 学 中 的 检验 法 和 t 检 验 法 ， 接 下 来 
将 介绍 有 关 F 检 验 和 t 检 验 的 理论 知识 和 实践 操作 。 
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7.3.1 ”模型 的 显著 性 检验 一 一 三 检验 


在 统计 学 中 ， 有 关 假设 检验 的 问题 ， 都 有 一 套 成 熟 的 步骤 。 首 先 来 看 一 下 如 何 应 用 F 检 验 法 完 
成 模型 的 显著 性 检验 ， 具 体 的 检验 步骤 如 下 

( 1 ) 提出 问题 的 原 假设 和 备 择 假设 。 

(2 ) 在 原 假设 的 条 件 下 ， 构 造 统 计量 F。 

(3 ) 根据 样本 信息 ， 计 算 统 计量 的 值 。 

(4 ) 对 比 统计 量 的 值 和 理论 F 分 布 的 值 ， 如 果 计 算 的 统计 量 值 超过 理论 的 值 ， 则 拒绝 原 假设 ， 
否则 需 接受 原 假设 。 


下 面 将 按照 上 述 四 个 步骤 对 构造 的 多 元 线性 回归 模型 进行 F 检 验 , 进一步 确定 该 模型 是 否 可 用 ， 
详细 操作 步骤 如 下 : 
步骤 一 : 提出 假设 





hm:p=p=…= 有 =0 
ee 
Ho 为 原 假设 , 该 假设 认为 模型 的 所 有 偏 回 归 系 数 全 为 0, 即 认为 没有 一 个 自 变量 可 以 构成 因 变 
量 的 线性 组 合 ，Hi1 为 备 择 假 设 ,正好 是 原 假设 的 对 立 面 ， 即 p 个 自 变 量 中 ， 至 少 有 一 个 变量 可 以 构 
成 因 变量 的 线性 组 合 。 就 F 检 验 而 言 ,研究 者 往往 是 更 加 希望 通过 数据 来 推翻 原 假设 Ho。， 而 接受 备 
择 假设 叫 的 结论 。 
步骤 二 : 构造 统计 量 
为 了 使 读者 理解 F 统 计量 的 构造 过 程 ， 可 以 先 观 看 图 7-2， 然 后 掌握 总 的 离 差 平方 和 、 回 归 离 
差 平 方 和 与 误差 平方 和 的 概念 与 差异 。 

















图 7-2 下 检验 示意 图 


假设 图 中 的 斜 线 代表 某 条 线性 拟 合 线 ， 点 p(x,y) 代 表 数 据 集中 的 某 个 点 ， 则 9 为 点 x 处 的 预测 
值 ，(y 一 人 了) 为 真实 值 与 预测 值 之 间 的 差异 ，( 了 一 妨 为 预测 值 与 总 体 平均 值 之 间 的 差异 ，(y 一 习 为 
真实 值 与 总 体 平均 值 之 间 的 差异 。 如 果 将 这 些 差 异 向 量 做 平方 和 的 计算 ， 则 会 得 到 : 
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D0 -2D = ESS 
i=1 


l 
D0 -7 = RSs 
i=1 


2 一 歼 =7S5 


如 上 公式 所 示 ， 公 式 中 的 ESS 称 为 误差 平方 和 ,衡量 的 是 因 变 量 的 实际 值 与 预测 值 之 间 的 离 差 
平方 和 ， 会 随 着 模型 的 变化 而 变动 (因为 模型 的 变化 会 导致 预测 值 和 的 变动 》; RSS 为 回归 离 差 平 
方 和 , 衡量 的 是 因 变 量 的 预测 值 与 实际 均值 之 间 的 离 差 平方 和 , 同样 会 随 着 模型 的 变化 而 变动 ; TSS 
为 总 的 离 差 平方 和 , 衡量 的 是 因 变 量 的 值 与 其 均值 之 间 的 离 差 平方 和 , 而 其 值 并 不 会 随 模型 的 变化 
而 变动 ， 即 它 是 一 个 固定 值 。 

根据 统计 计算 ， 这 三 个 离 差 平方 和 之 间 存 在 这 样 的 等 式 关系 : TSS = ESS + RSS。 由 于 TSS 的 
值 不 会 随 模 型 的 变化 而 变动 ， 因 此 E55 与 RSS 之 间 存 在 严格 的 负 向 关系 ， 即 ESS 的 降低 会 导致 RSS 的 
增加 。 正 如 7.1.1 节 所 介绍 的 内 容 ， 线 性 回归 模型 的 参数 求解 是 依据 误差 平方 和 最 小 的 理论 ， 如 果 
根据 线性 回归 模型 得 到 的 E55S 值 达到 最 小 ， 那么 对 应 的 RSS 值 就 会 达到 最 大 ,进而 RS5 与 E55 的 商 也 
会 达到 最 大 。 

按照 这 个 逻辑 ， 便 可 以 构造 F 统 计量 ， 该 统计 量 可 以 表示 成 回归 离 差 平方 和 RSS 与 误差 平方 和 
ESS 的 公式 : 











RSS/p 
~ ESS/n-p—1) 
其 中 ，p 和 n 一 p 一 1 分 别 为 R8S 和 ESS 的 自由 度 。 模 型 拟 合 得 越 好 ， ESS 就 会 越 小 ，RSS 则 会 
越 大 ， 得 到 的 F 统 计量 也 就 越 大 。 
步骤 三 ， 计 算 统计 量 
下 面 按照 8 统计 量 的 公式 ， 运 用 Python 计算 该 统计 量 的 值 ， 详 细 的 计算 过 程 可 见 下 方 代码 ; 
# 导入 第 三 方 模块 


import numpy as np 


玫 ppm p= 


# 计算 建 模 数据 中 因 变 量 的 均值 

ybar = train.Profit .mean() 

# 统计 变量 个 数 和 观测 个 数 

Pp = model2.df model 

n = train.shape[0] 

# 计算 回归 离 差 平方 和 

RSS = np.sum( (mode12.fittedvalues-ybar) ** 2) 
# 计算 误差 平方 和 

ESS = np.sum(model2.resid ** 2) 
# 计算 了 统计 量 的 值 

F = (RSS/p)/(ESS/(n-p-1)) 
print ('F 统计 量 的 值 : ' ,F) 


out: 


FF 统计 量 的 值 : 174.6372 
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为 了 验证 手工 计算 的 结果 是 否 正 确 ， 可 以 通过 fyalue“ 方 法 ”直接 获得 模型 的 F 统 计量 值 ， 如 
下 结果 所 示 ， 经 过 对 比 发 现 ， 手 工 计算 的 结果 与 模型 自 带 的 F 统 计量 值 完 全 一 致 : 
mode12.fvalue 


out 
174.6372 


步骤 四 : 对 比 结果 下 结论 

最 后 一 步 所 要 做 的 是 对 比 F 统 计量 的 值 与 理论 F 分 布 的 值 ， 如 果 读 者 手中 有 F 分 布 表 ， 可 以 根 
据 置 信 水 平 《0.05) 和 自由 度 (5,34) 查看 对 应 的 分 布 值 。 为 了 简单 起 见 ， 这 里 直接 调用 Python 函 
数 计算 理论 分 布 值 : 

# 导入 模块 


from scipy.stats import f 


# 计算 F 分 布 的 理论 值 
F Theroy = f.ppf (q=0.95, dfn = p,dfd = n-p-1) 
print ("F 分 布 的 理论 值 为 :' ,F_Theroy) 


out: 


F 分布 的 理论 值 为 。 2.5026 

如 上 结果 所 示 , 在 原 假设 的 前 提 下 ,计算 出 来 的 F 统 计量 值 174.64 远 远大 于 F 分 布 的 理论 值 2.50， 
所 以 应 当 拒 绝 原 假设 , 即 认为 多 元 线性 回归 模型 是 显著 的 , 也 就 是 说 回归 模型 的 偏 回 归 系数 都 不 全 
为 0。 





7.3.2 ”回归 系数 的 显著 性 检验 一 一 t 检验 


模型 通过 了 显著 性 检验 ， 只 能 说 明 关于 因 变 量 的 线性 组 合 是 合理 的 ， 但 并 不 能 说 明 每 个 自 变 
量 对 因 变 量 都 具有 显著 意义 ,所 以 还 需要 对 模型 的 回归 系数 做 显著 性 检验 。 关 于 系数 的 显著 性 检验 ， 
需要 使 用 检验 法 ,构造 t 统 计量 。 接 下 来 按照 模型 显著 性 检验 的 四 个 步骤 ， 对 偏 回归 系数 进行 显著 

步骤 一 : 提出 假设 





和 :Bi=0,j=12,p 
Hi:Bi#0 
如 前 文 所 提 , t 检 验 的 出 发 点 就 是 验证 每 一 个 自 变量 是 否 能 够 成 为 影响 因 变量 的 重要 因素 。t 检 
验 的 原 假设 是 假定 第 j 变 量 的 偏 回 归 系 数 为 0， 即 认为 该 变量 不 是 因 变 量 的 影响 因素 ;而 备 择 假设 
则 是 相反 的 假定 ， 认 为 第 j 变 量 是 影响 因 变 量 的 重要 因素 。 
步骤 二 : 构造 统计 量 








-总 = 各 
sc) tw 一 和 一至 
其 中 ， 房 为 线性 回归 模型 的 第 /个 系数 估计 值 ， Bj 为 原 假设 中 的 假定 值 ， 即 0，se( 记 ) 为 回归 系 


数 记 的 标准 误 ， 对 应 的 计算 公式 如 下 : 
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2 
其 中 ， 允 如 为 误差 平方 和 ，6jj 为 矩阵 (X'X)-! 主 对 角 线 上 第 j 个 元 素 。 
步骤 三 : 计算 统计 量 
如 果 读 者 对 t 统 计量 值 的 计算 比较 感 兴趣 ， 可 以 使 用 如 上 公式 完成 统计 量 的 计算 ， 这 里 就 不 手 
工 计 算 了 。 为 了 方便 起 见 ， 可 以 直接 调用 summary“ 方 法 ”， 输 出 线性 回归 模型 的 各 项 指标 值 : 
# 有关 模型 的 概览 信息 


mode12.summary() 

























































































见 图 7-3。 
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7-3 ”模型 的 概览 信息 


如 上 结果 所 示 ， 模 型 的 概览 信息 包含 三 个 部 分 ， 第 一 部 分 主要 是 有 关 模 型 的 信息 ， 例 如 模型 
的 判决 系数 R?, 用 来 衡量 自 变量 对 因 变 量 的 解释 程度 、 模 型 的 F 统 计量 值 , 用 来 检验 模型 的 显著 性 、 
模型 的 信息 准则 AIC 或 BIC， 用 来 对 比 模型 拟 合 效果 的 好 坏 等 ， 第 二 部 分 主要 包含 偏 回归 系数 的 
信息 ， 例 如 回归 系数 的 估计 值 Coef、t 统 计量 值 、 回 归 系 数 的 置信 区 间 等 ， 第 三 部 分 主要 涉及 模型 
误差 项 e 的 有 关 信 息 ， 例 如 用 于 检验 误差 项 独立 性 的 杜 宾 - 瓦 特 森 统计 量 Durbin-Watson、 用 于 衡量 
误差 项 是 否 服 从 正 态 分 布 的 聘 统计 量 以 及 有 关 误差 项 偏 度 Skew 和 峰 度 Kurtosis 的 计算 值 等 。 

步骤 四 : 对 比 结果 下 结论 

在 第 二 部 分 的 内 容 中 ,含有 每 个 偏 回归 系数 的 t 统 计量 值 , 它 的 计算 就 是 由 估计 值 coef 和 标准 
误 std err 的 商 所 得 的 。 同时 , 每 个 t 统 计量 值 都 对 应 了 概率 值 p», 用 来 判别 统计 量 是 否 显著 的 直接 办 
法 ,通常 概率 值 p 小 于 0.05 时 表示 拒绝 原 假设 。 从 返回 的 结果 可 知 ， 只 有 截 距 项 Intercept 和 研发 成 
本 RD_Spend 对 应 的 p 值 小 于 0.05， 才 说 明 其 余 变量 都 没有 通过 系数 的 显著 性 检验 ， 即 在 模型 中 这 
些 变量 不 是 影响 利润 的 重要 因素 。 
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7.4 回归 模型 的 诊断 





当 回归 模型 构建 好 之 后 ， 并 不 意味 着 建 模 过 程 的 结束 ， 还 需要 进一步 对 模型 进行 诊断 ， 目 的 
就 是 使 诊断 后 的 模型 更 加 健壮 。 统计 学 家 在 发 明 线性 回归 模型 的 时 候 就 提出 了 一 些 假 设 前 提 , 只 
在 满足 这 些 假 设 前 提 的 情况 下 ， 所 得 的 模型 才 是 合理 的 。 本 节 的 主要 内 容 就 是 针对 如 下 几 点 假设 ， 
完成 模型 的 诊断 工作 : 
误差 项 E 服 从 正 态 分 布 。 
无 多 重 共 线性 。 
线性 相关 性 。 
误差 项 = 的 独立 性 。 
方差 齐 性 。 

除了 上 面 提 到 的 五 点 假设 之 外 ， 还 需要 注意 的 是 ， 线 性 回归 模型 对 异常 值 是 非常 敏感 的 ， 即 
模型 的 构建 过 程 非常 容易 受到 异常 值 的 影响 , 所 以 诊断 过 程 中 还 需要 对 原始 数据 的 观测 进行 异常 点 
识别 和 处 理 。 接 下 来 ， 结 合理 论 知 识 与 Python 代码 逐一 展开 模型 的 诊断 过 程 。 


7.4.1 正 态 性 检验 


虽然 模型 的 前 提 假 设 是 对 残 差 项 要 求 服从 正 态 分 布 ， 但 是 其 实质 就 是 要 求 因 变 量 服从 正 态 分 
布 。 对 于 多 元 线性 回归 模型 y = XB + s 来 说 ， 等 式 右边 的 自 变量 属于 已 知 变量 ， 而 等 式 左边 的 因 变 
量 为 未 知 变量 ( 故 需要 通过 建 模 进行 预测 ) 。 所 以 ， 要 求 误差 项 服从 正 态 分 布 ， 就 是 要 求 因 变 量 服 
从 正 态 分 布 , 关于 正 态 性 检验 通常 运用 两 类 方法 , 分 别 是 定性 的 图 形 法 (直方 图 、 PP 图 或 QQ 图) 
和 定量 的 非 参 数 法 (Shapiro 检验 和 K-S 检验 ) ， 接 下 来 通过 具体 的 代码 对 原 数据 集中 的 利润 变量 


1. 直方 图 法 

# 导入 第 三 方 模块 

import scipy.stats as stats 
# 中 文 和 负 号 的 正常 显示 


plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 





plt.rcParams['axes.unicode minus'] = False 
# 绘制 直方 图 
sns.distplot(a = Profit New.Profit, bins = 10, fit = stats.norm, norm hist = True, 
hist kws = {'color':'steelblue', ‘edgecolor':'black'}, 
kde_kws = {'color':'black'，'linestyle':'--'，'label' : ' 核 密度 曲线 '}， 
fit kws = {'color':'red'，'linestyle':':'，'label':' 正 态 密度 曲线 ' }) 
# 显示 图 例 
plt.1legend() 
# 显示 图 形 
plt.show() 
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见 图 7-4。 
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图 7-4 使 用 直方 图 做 正 态 性 检验 


图 7-4 中 绘制 了 因 变 量 Profit 的 直方 图 、 核 密度 曲线 和 理论 正 态 分 布 的 密度 曲线 ， 添 加 两 条 曲 
线 的 目的 就 是 比 对 数据 的 实际 分 布 与 理论 分 布 之 间 的 差异 。 如 果 两 条 曲线 近似 或 吻合 , 就 说 明 该 变 
量 近 似 服从 正 态 分 布 。 从 图 中 看 ， 核 密度 曲线 与 正 态 密度 曲线 的 趋势 比较 吻合 ， 故 直观 上 可 以 认为 
利润 变量 服从 正 态 分 布 。 

2. PP 图 与 QQ 图 


# 残 差 的 正 态 性 检验 (PP 图 和 QQ 图 法 ) 

PPp_qq plot = sm.ProbPlot (Profit New.Profit) 
# 绘制 PP 图 

Pp_qq plot.ppplot (line = '45') 
plt.title('P-P 图 ') 

# 绘制 oo 图 

Pp_qq plot.qqplot(line = 'q') 
Plt.title('Q-Q 图 ') 























# 显示 图 形 
plt.show() 
见 图 7-5。 
P-P 图 3 
175000 
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图 7-5 使 用 PP 图 和 QQ 图 做 正 态 性 检验 
PP 图 的 思想 是 比 对 正 态 分 布 的 累计 概率 值 和 实际 分 布 的 累计 概率 值 ， 而 QQ 图 则 比 对 正 态 分 
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布 的 分 位 数 和 实际 分 布 的 分 位 数 。 判 断 变量 是 否 近 似 服从 正 态 分 布 的 标准 是 : 如 果 散 点 都 比较 均匀 
地 散落 在 直线 上 , 就 说 明 变量 近似 服从 正 态 分 布 , 否则 就 认为 数据 不 服从 正 态 分 布 。 从 图 7-5 可 知 ， 
不 管 是 PP 图 还 是 QQ 图 绘制 的 散 点 均 落 在 直线 的 附近 ， 没 有 较 大 的 偏离 ， 故 认为 利润 变量 近似 
服从 正 态 分 布 。 

3. Shapiro 检验 和 K-S 检验 

这 两 种 检验 方法 均 属于 非 参数 方法 ， 它 们 的 原 假设 被 设 定 为 变量 服从 正 态 分 布 ， 两 者 的 最 大 
区 别 在 于 适用 的 数据 量 不 一 样 ， 若 数据 量 低 于 5000， 则 使 用 shapiro 检验 法 比较 合理 ， 否 则 使 用 
K-S 检验 法 。scipy 的 子 模块 stats 提供 了 专门 的 检验 函数 ， 分 别 是 shapiro 函数 和 kstest 函数 ， 由 于 
利润 数据 集 的 样本 量 小 于 5000， 故 下 面 运 用 shapiro 函数 对 利润 做 定量 的 正 态 性 检验 : 

# 导入 模块 

import scipy.stats as stats 


# Shapiro 检验 
stats.shapiro(Profit_New.Profit) 





out: 
(0.9793398380279541, 0.537902295589447) 


如 上 结果 所 示 ， 元 组 中 的 第 一 个 元 素 是 shapiro 检验 的 统计 量 值 ， 第 二 个 元 素 是 对 应 的 概率 值 
p。 由 于 p 值 大 于 置信 水 平 0.05， 故 接受 利润 变量 服从 正 态 分 布 的 原 假设 。 

为 了 应 用 K-S 检验 的 函数 kstest， 这 里 随机 生成 正 态 分 布 变 量 xl 和 均匀 分 布 变量 x2， 有 具体 操 
作 代码 如 下 : 

# 生成 正 态 分 布 和 均匀 分 布 随机 数 

rnorm = np.random.normal (loc = 5, scale=2, size = 10000) 

runif = np.random.uniform(low = 1, high = 100, size = 10000) 

# 正 态 性 检验 

KS Testl = stats.kstest(rvs = rnorm, args = (rnorm.mean(), rnorm.std()), cdf = "norm') 

KS Test2 = stats.kstest(rvs = runif, args = (runif.mean(), runif.std()), cdf = 'norm') 

print (KS_Test1) 

Print (KS_Test2) 


人 Pvalue=0.8597) 

KstestResult (statistic=0.061127, pvalue=7.0185e-33) 

如 上 结果 所 示 ， 正 态 分 布 随机 数 的 检验 p 值 大 于 置信 水 平 0.05， 则 需 接受 原 假设 ; 均匀 分 布 随 
机 数 的 检验 p 值 远 远 小 于 0.05， 则 需 拒绝 原 假设 。 需 要 说 明 的 是 ， 如 果 使 用 kstest 函数 对 变量 进行 
正 态 性 检验 ， 必 须 指 定 args 参数 ， 它 用 于 传递 被 检验 变量 的 均值 和 标准 差 。 

如 果 因 变量 的 检验 结果 不 满足 正 态 分 布 时 ， 需 要 对 因 变 量 做 某 种 数学 转换 ， 使 用 比较 多 的 转 
换 方法 有 log0D)、V7、 误 、 二 轨 和 上 等 


7.4.2 多重 共 线性 检验 


多 重 共 线性 是 指 模型 中 的 自 变量 之 间 存 在 较 高 的 线性 相关 关系 ， 它 的 存在 会 给 模型 带 来 严重 
的 后 果 ， 例 如 由 “最 小 二 乘法 ”得 到 的 偏 回 归 系 数 无 效 、 增 大 偏 回归 系数 的 方差 、 模 型 缺乏 稳定 性 
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等 ， 所 以 ， 对 模型 的 多 重 共 线 性 检验 就 显得 尤其 重要 了 。 
关于 多 重 共 线性 的 检验 可 以 使 用 方差 膨胀 因子 VIF 来 鉴定 ， 如 果 VIF 大 于 10， 则 说 明 变量 间 存 








(1) 构造 每 一 个 自 变量 与 其 余 自 变量 的 线性 回归 模型 ， 例 如 ， 数 据 集中 含有 p 个 自 变量 ， 则 
第 一 个 自 变量 与 其 余 自 变量 的 线性 组 合 可 以 表示 为 : 





X1=Cot+a2Xit+…+apXp+E 
(2) 根 据 如 上 线性 回归 模型 得 到 相应 的 判决 系数 R?, 进而 计算 第 一 个 自 变量 的 方差 膨胀 因子 VIF: 


1 
WI 


Python 中 的 statsmodels 模块 提供 了 计算 方差 膨胀 因子 VIF 的 函数 , 下 面 利用 该 函数 计算 两 个 自 
变量 的 方差 膨胀 因子 : 
# 导入 statsmodels 模块 中 的 函数 


from statsmodels.stats.outliers influence import variance inflation factor 





# 自 变量 X (包含 RD_spend、Marketing_ spend 和 常数 列 1) 
X = sm.add constant (Profit New.ix[:,['RD Spend', 'Marketing Spend']]) 


# 构造 空 的 数据 框 ， 用 于 存储 VIF 值 

vif = pd.DataFrame () 

vif["features"] = X.columns 

Vif["VIF Factor"] = [variance inflation factor(X.values, i) for i in range(X.shape[1])] 
# 返回 VIF 值 


v4 
见 表 7-2。 


表 7-2 VIF 的 计算 结果 
Features VIF Factor 


4.540984 





RD Spend 2.026141 
Marketing Spend 2.026141 


如 上 结果 所 示 ， 两 个 自 变量 对 应 的 方差 膨胀 因子 均 低 于 10， 说 明 构 建 模型 的 数据 并 不 存在 多 














重 共 线 性 。 如 果 发 现 变量 之 间 存 在 多 重 共 线 性 的 话 , 可 以 考虑 删除 变量 或 者 重新 选择 模型 (如 岭 EE 
归 模 型 或 LASSO 模型 ) 。 








7.4.3 ”线性 相关 性 检验 


线性 相关 性 检验 ， 顾 名 思 义 ， 就 是 确保 用 于 建 模 的 自 变量 和 因 变 量 之 间 存 在 线性 关系 。 关 于 
线性 关系 的 判断 ， 可 以 使 用 Pearson 相关 系数 和 可 视 化 方法 进行 识别 ， 有 关 Pearson 相关 系数 的 计 
算 公式 如 下 : 
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村 COV (x, y) 
My VBI 
其 中 ,COV(%% 为 自 变量 x 与 因 变 量 y 之 间 的 协 方差 ,D(x) 和 D(y) 分 别 为 自 变量 x 和 因 变量 y 的 
方差。 
Pearson 相关 系数 的 计算 可 以 直接 使 用 数据 框 的 corrwith“ 方 法”， 该 方法 最 大 的 好 处 是 可 以 
计算 任意 指定 变量 间 的 相关 系数 。 下面 使 用 该 方法 计算 因 变 量 与 每 个 自 变量 之 间 的 相关 系数 ， 具体 
代码 如 下 : 


# 计算 数据 集 Profit_New 中 每 个 自 变量 与 因 变量 利润 之 间 的 相关 系数 
Profit New.drop('Profit', axis = 1).corrwith (Profit New.Profit) 


out: 

RD Spend 0.978437 
Administration 0.205841 
Marketing_Spend 0.739307 
California -0.083258 
Florida 0.088008 


如 上 结果 所 示 ， 自 变量 中 只 有 研发 成 本 和 市 场 营 销 成 本 与 利润 之 间 存 在 较 高 的 相关 系数 ， 相 
关 性 分 别 达到 0.978 和 0.739， 而 其 他 变量 与 利润 之 间 几 乎 没有 线性 相关 性 可 言 。 通 常情 况 下 ， 可 
以 参考 表 7-3 判断 相关 系数 对 应 的 相关 程度 : 


表 7-3 ”线性 相关 的 程度 说 明 


高 度 相关 中 度 相关 几乎 不 相关 


以 管理 成 本 Administration 为 例 ， 与 利润 之 间 的 相关 系数 只 有 0.2， 被 认定 为 不 相关 ， 这 里 的 
不 相关 只 能 说 明 两 者 之 间 不 存在 线性 关系 。 如 果 利 润 和 管理 成 本 之 间 存 在 非 线性 关系 时 ，Pearson 
相关 系数 也 同样 会 很 小 ， 所 以 还 需要 通过 可 视 化 的 方法 ， 观 察 自 变量 与 因 变量 之 间 的 散 点 关系 。 

读者 可 以 应 用 matplotlib 模块 中 的 scatter 函数 绘制 五 个 自 变量 与 因 变 量 之 间 的 散 点 图 , 那样 做 
可 能 会 使 代码 显得 兄长 。 这 里 介绍 另 一 个 绘制 散 点 图 的 函数 ， 那 就 是 seabom 模块 中 的 pairplot 函 
数 ， 它 可 以 绘制 多 个 变量 间 的 散 点 图 矩阵 。 

# 导入 模块 


import matplotlib.pyplot as Plt 
import seaborn 


# 绘制 散 点 图 矩阵 
seaborn.pairplot (Profit New.ix[:, ['RD Spend', 'Administration', 'Marketing Spend','Profit'] 


# 显示 图 形 
plt.show() 


见 图 7-6。 
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图 7-6 seabom 库 绘 制 的 矩阵 图 





如 图 7-6 所 示 ， 由 于 California 与 Florida 都 是 哑 变 量 ， 故 没有 将 其 放 入 散 点 图 矩 阵 中 。 从 图 
中 结果 可 知 ,研发 成 本 与 利润 之 间 的 散 点 图 几乎 为 一 条 向 上 倾斜 的 直线 ( 见 左 下 角 的 散 点 图 ) ， 说 
明 两 种 变量 确实 存在 很 强 的 线性 关系 ; 市 场 营 销 成 本 与 利润 的 散 点 图 同样 向 上 倾斜 , 但 很 多 点 的 分 
布 还 是 比较 分 散 的 〈 见 第 一 列 第 三 行 的 散 点 图 ) ;管理 成 本 与 利润 之 问 的 散 点 图 呈 水 平 趋势 ， 而 且 
分 布 也 比较 宽 ， 说 明 两 者 之 问 确实 没有 任何 关系 〈 见 第 一 列 第 二 行 的 散 点 图 ) 。 

以 7.2.2 节 中 重 构 的 模型 model2 为 例 , 综合 考虑 相关 系数 、 散 点 图 和 矩阵 和 t 检 验 的 结果 ， 最终 确 定 
只 保留 模型 model2 中 的 RD_Spend 和 Marketing_Spend 两 个 自 变量 ， 下 面 重 新 对 该 模型 做 修正 : 

# 模型 修正 

model3 = smf.ols('Profit ~ RD Spend + Marketing Spend', data = train) .fit() 

# 模型 回归 系数 的 估计 值 


model3.params 


out: 
Intercept 51902.112471 
RD Spend 0.785116 


Marketing Spend 0.019402 


如 上 结果 所 示 ， 返 回 的 是 模型 两 个 自 变量 的 系数 估计 值 ， 可 以 将 多 元 线性 回归 模型 表示 成 : 
Profit = 51902.11 + 0.79RD_Spend + 0.02Marketing Spend 








7.4.4 ”异常 值 检 验 


由 于 多 元 线性 回归 模型 容易 受到 极端 值 的 影响 ， 故 需要 利用 统计 方法 对 观测 样本 进行 异常 点 
检测 。 如 果 在 建 模 过 程 中 发 现 异 常数 据 ， 需 要 对 数据 集 进行 整改 ,如 删除 异常 值 或 衍生 出 是 否 为 异 
常 值 的 哑 变 量 。 对 于 线性 回归 模型 来 说 ， 通 常 利 用 帽子 矩阵 、DFFITS 准则 、 学 生化 残 差 或 Cook 
距离 进行 异常 点 检测 。 接 下 来 ， 分 别 对 这 四 种 检测 方法 做 简单 介绍 。 

1. 帽子 矩阵 

帽子 矩阵 的 设计 思路 就 是 考察 第 i 个 样本 对 预测 值 7 的 影响 大 小 ， 根 据 7.2.1 节 中 推导 得 到 的 回 
归 系 数 求解 公式 ， 可 以 将 多 元 线性 回归 模型 表示 成 : 

?=Xp = XXX) 1X'y= Hy 
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其 中 ，H = X(X'X)-1X'，H 就 称 为 帽子 矩阵 ， 全 都 是 关于 自 变量 X 的 计算 。 判 断 样本 是 否 为 异 
常 点 的 方法 ， 可 以 使 用 如 下 公式 : 


>2@+ 
n 
其 中 , hi 为 帽子 矩阵 HH 的 第 i 个 主 对 角 线 元 素 , p 为 自 变量 个 数 , n 为 用 于 建 模 数据 集 的 样本 量 。 
如 果 对 角 线 元 素 满足 上 面 的 公式 ， 则 代表 第 i 个 样本 为 异常 观测 。 
2. DFFITS 准则 


DFFITS 准则 借助 于 帽子 矩阵 ， 构 造 了 另 一 个 判断 异常 点 的 统计 量 ， 该 统计 量 可 以 表示 成 如 下 


公式 : 
hi & 
Di(o) = | 一 
(0) 1-—haoyl— hi 


其 中 ，hi; 为 帽子 矩阵 有 的 第 i 个 主 对 角 线 元 素 ，ei 为 第 i 个 样本 点 的 预测 误差 ，o 为 误差 项 的 标 
准 差 ， 判 断 样本 为 异常 点 的 方法 ， 可 以 使 用 如 下 规则 : 





p+1 
n 





IDi(oO)| > 2 


需要 注意 的 是 , 在 DFFITS 准则 的 公式 中 ， 乘 积 的 第 二 项 实际 上 是 学 生化 残 差 ， 也 可 以 用 来 判 
定 第 i 个 样本 是 否 为 异常 点 ， 判 断 标准 如 下 : 





3. Cook 距离 
Cook 距离 是 一 种 相对 抽象 的 判断 准则 ， 无 法 通过 具体 的 临界 值 判断 样本 是 否 为 异常 点 ， 对 于 
该 距离 ，Cook 统计 量 越 大 的 点 ， 其 成 为 异常 点 的 可 能 性 越 大 。Cook 统计 量 可 以 表示 为 如 下 公式 : 





hi 2 
Distance; = ifG 所) ri 


其 中 ,ni 为 学 生化 残 差 。 

如 果 使 用 如 上 四 种 方法 判别 数据 集 的 第 ;个 样本 是 否 为 异常 点 ， 前 提 是 已 经 构造 好 一 个 线性 加 
归 模 型 ， 然 后 基于 get_influence“ 方 法 ”获得 四 种 统计 量 的 值 。 为 了 检验 模型 中 数据 集 的 样本 是 否 
存在 异常 ， 这 里 沿用 上 节 中 构造 的 模型 model3， 有 具体 代码 如 下 : 


# 异常 值 检验 
outliers = model3.get_influence() 

















# 高 杠杆 值 点 《帽子 矩阵 ) 

leverage = outliers.hat matrix diag 

# dffits 值 

dffits = outliers.dffits[0] 

# 学 生化 残 差 

resid stu = outliers.resid studentized external 
# cook 距离 

cook = outliers.cooks_distance[0] 
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# 合并 各 种 异常 值 检验 的 统计 量 值 

contatl = pd.concat ([pd.Series (leverage, name = 'leverage'),pd.Series(dffits, name = 
'dffits'),pd.Series (resid stu,name = 'resid stu'),pd.Series (cook, name = 'cook')],axis = 1) 

# 重 设 train 数据 的 行 索引 

train.index = range (train.shape[0]) 

# 将 上 面 的 统计 量 与 train 数据 集合 并 

profit outliers = pd.concat ([train,contat1], axis = 1) 

Profit outliers.head() 




















见 表 7-4。 
表 7-4 计算 的 几 种 异常 值 统计 量 
RD_Spend | Administration | Marketing_Spend | Profit California | Florida | leverage | dffits resid_stu | cook 

0|28663.76 |127056.21 201126.82 |so7os 19 |00 10 | 066517|0.466410 | 1.747255 | 0.068601 
1|15505.73 |127382.30 35534.17 [69758 98 |00 | 0 | 093362|0.221230 | 0.689408 | 0.016556 
2|94657.16 |145077.58 282574.31 [125370 37|00 |oo | 032741|-0.156225|-0.849138|0.008199 
3|101913.08 | 110594.11 229160.95 [146121 95|00 | 0 | 039600|0.270677 | 1.332998 | 0.023906 
4|78389.47 |153773.43 299737.29 | 111313.02 |0.0 1o 0 | 042983|-0.228563|-1.078496|0.017335 



































如 表 7-4 所 示 ， 合 并 了 train 数据 集 和 四 种 统计 量 的 值 ， 接 下 来 要 做 的 就 是 选择 一 种 或 多 种 判 
断 方法 ， 将 异常 点 查询 出 来 。 为 了 简单 起 见 ， 这 里 使 用 标准 化 残 差 ， 当 标准 化 残 差 大 于 2 时 ， 即 认 
为 对 应 的 数据 点 为 异常 值 。 

# 计算 异常 值 数量 的 比例 


outliers ratio = 


sum(np.where( (np.abs(profit outliers.resid stu)>2),1,0))/ccpp_outliers.shape[0] 
outliers ratio 


out: 
0.025 


如 上 结果 所 示 ， 通 过 标准 化 残 差 监 控 到 了 异常 值 ， 并 且 异 常 比例 为 2.5%。 对 于 异常 值 的 处 理 
办 法 , 可 以 使 用 两 种 策略 , 如果 异常 样本 的 比例 不 高 (如 小 于 等 于 5%)，, 可 以 考虑 将 异常 点 删除 ; 
如 果 异 常 样本 的 比例 比较 高 ,选择 删除 会 丢失 一 些 重要 信息 ,所 以 需要 衍生 哑 变 量 , 即 对 于 异常 点 ， 
设置 哑 变 量 的 值 为 1， 否 则 为 0。 如 上 可 知 ， 建 模 数据 的 异常 比例 只 有 2.5%， 故 考虑 将 其 删除 。 

# 挑选 出 非 异常 的 观测 点 

none outliers = profit outliers.ix[np.abs (profit outliers.resid stu)<=2,] 

# 应 用 无 异常 值 的 数据 集 重新 建 模 


model4 = smf.ols('Profit ~ RD Spend + Marketing Spend', data = none outliers).fit() 
model14.params 


out: 

Intercept 51827.416821 
RD _ Spend 0.797038 
Marketing_Spend 0.017740 


如 上 结果 所 示 ， 经 过 异常 点 的 排除 ， 重 构 模型 的 偏 回归 系数 发 生 了 变动 ， 故 可 以 将 模型 写成 
如 下 公式 : 
Profit = 51827.42 + 0.80RD_Spend + 0.02Marketing Spend 
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7.4.5 ”独立 性 检验 


残 差 的 独立 性 检验 ， 说 白 了 也 是 对 因 变 量 y 的 独立 性 检验 ， 因 为 在 线性 回归 模型 的 等 式 左右 只 
有 y 和 残 差 项 s 属 于 随机 变量 ,如 果 再 加 上 正 态 分 布 ,就 构成 了 残 差 项 独立 同 分 布 于 正 态 分 布 的 假设 。 
关于 残 差 的 独立 性 检验 通常 使 用 Durbin-Watson 统计 量 值 来 测试 , 如 果 DW 值 在 2 左右 ， 则 表明 残 
差 项 之 问 是 不 相关 的 ;如 果 与 2 偏离 的 较 远 ， 则 说 明 不 满足 残 差 的 独立 性 假设 。 对 于 DW 统计 量 
的 值 ， 其 实 都 不 需要 另行 计算 ， 因 为 它 包含 在 模型 的 概览 信息 中 ， 以 模型 model4 为 例 : 




















# 模型 概览 

Mode14.summary() 

见 表 7-5。 

表 7-5 DW 统计 量 

Omnibus: 7.188 [Durbin.Watson: |2065 
Prob(Omnibus): |0.027 | Jarque-Bera (JB): [2744 
Skew: 0.321 |Prob(JB): [0254 
Kurtosis: 1.851 | Cond. No. [575e+05 














如 表 7-5 所 示 ， 残 差 项 对 应 的 DW 统计 量 值 为 2.065， 比 较 接 近 于 2， 故 可 以 认为 模型 的 残 差 
项 之 间 是 满足 独立 性 这 个 假设 前 提 的 。 


7.4.6 ”方差 齐 性 检验 


方差 齐 性 是 要 求 模型 残 差 项 的 方差 不 随 自 变量 的 变动 而 呈现 某 种 趋势 ， 否 则 ， 残 差 的 趋势 就 
可 以 被 自 变量 刻画 。 如 果 残 差 项 不 满足 方差 齐 性 〈 方 差 为 一 个 常数 ) ， 就 会 导致 偏 回 归 系 数 不 具 备 
有 效 性 ， 甚 至 导致 模型 的 预测 也 不 准确 。 所 以 ， 建 模 后 需要 验证 残 差 项 是 否 满足 方差 齐 性 。 关 于 方 
差 齐 性 的 检验 ， 一 般 可 以 使 用 两 种 方法 ， 即 图 形 法 〈 散 点 图 ) 和 统计 检验 法 (BP 检验 ) 。 

1. 图 形 法 

如 上 所 说 ， 方 差 齐 性 是 指 残 差 项 的 方差 不 随 自 变量 的 变动 而 变动 ， 所 以 只 需要 绘制 残 差 与 自 
变量 之 问 的 散 点 图 ， 就 可 以 发 现 两 者 之 间 是 否 存在 某 种 趋势 : 


# 设置 第 一 张 子 图 的 位 置 
axl = plt.subplot2grid(shape = (2,1), loc = (0,0)) 





# 绘制 散 点 图 

axl.scatter (none _ outliers.RD Spend, (model4.resid-model4.resid.mean())/model4.resid.std()) 
# 添加 水 平 参考 线 

axl.hlines(y = 0 ,xmin = none outliers.RD Spend.min(), 


xmax = none outliers.RD Spend.max(), color = 'red', linestyles = '--') 
# 添加 x 轴 和 y 轴 标签 
axl. set_xlabel ('RD_Spend') 
axl.set_ylabel ('Std Residual') 


# 设置 第 二 张 子 图 的 位 置 
ax2 = plt.subplot2grid(shape = (2,1), loc = (1,0)) 
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# 绘制 散 点 图 
ax2.scatter (none outliers.Marketing Spend, 
(model4.resid-model4.resid.mean()) /model4.resid.std()) 

# 添加 水 平 参考 线 
ax2.hlines(y = 0 ,xmin = none outliers.Marketing Spend.min(), 

xmax = none outliers.Marketing Spend.max(), color = 'red', linestyles = '--') 
# 添加 x 轴 和 y 轴 标签 
ax2.set xlabel('Marketing Spend') 
ax2.set_ylabel('Std Residual') 


# 调整 子 图 之 间 的 水 平 间距 和 高 度 间距 
Pplt.subplots adjust (hspace=0.6, wspace=0.3) 














# 显示 图 形 
plt.show() 
见 图 7-7。 
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图 7-7 图 形 法 检验 方差 齐 性 


如 图 7-7 所 示 , 标准 化 残 差 并 没有 随 自 变量 的 变动 而 呈现 喇叭 形 , 所 有 的 散 点 几乎 均匀 地 分 布 
在 参考 线 y=0 的 附近 。 所 以 ， 可 以 说 明 模 型 的 残 差 项 满足 方差 齐 性 的 前 提 假 设 。 

2. BP 检验 

方差 齐 性 检验 的 另 一 个 统计 方法 是 BP 检验 , 它 的 原 假设 是 残 差 的 方差 为 一 个 常数 , 通过 构造 
拉 格 朗 日 乘 子 LM 统 计量 ， 实 现 方差 齐 性 的 检验 。 该 检验 可 以 借助 于 statsmodels 模块 中 的 
het_breushpagan 函数 完成 ， 具 体 代码 如 下 : 

# BP 检验 


sm.stats.diagnostic.het breushpagan(model4.resid, exog het = model4.model .exog) 


out: 

(1.4675103668307794, 
0.48010272699007694, 
0.70297512371621873, 
0.50196597409630139) 


如 上 结果 所 示 ， 元 组 中 一 共 包含 四 个 值 ， 第 一 个 值 1.468 为 LM 统计 量 ; 第 二 个 值 是 统计 量 对 
应 的 概率 p 值 ， 该 值 大 于 0.05， 说 明 接 受 残 差 方差 为 常数 的 原 假设 ; 第 三 个 值 为 F 统 计量 ， 用 于 检 
验 残 差 平 方 项 与 自 变量 之 间 是 否 独立 ， 如 果 独 立 则 表明 残 差 方差 齐 性 ; 第 四 个 值 则 为 F 统 计量 的 概 
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率 p 值 ， 同 样 大 于 0.05， 则 进一步 表示 残 差 项 满足 方差 齐 性 的 假设 。 

如 果 模 型 的 残 差 不 满足 齐 性 的 话 ， 可 以 考虑 两 类 方法 来 解决 ， 一 类 是 模型 变换 法 ， 另 一 类 是 
“加 权 最 小 二 乘法 ”可 以 使 用 statsmodels 模块 中 的 wls 函数 ) 。 对 于 模型 变换 法 来 说 ， 主 要 考 
虑 残 差 与 自 变量 之 间 的 关系 ， 如 果 残 差 与 某 个 自 变 量 x 成 正比 ， 则 需 将 原 模型 的 两 边 同 除 以 Vx; 如 
果 残 差 与 某 个 自 变量 x 的 平方 成 正比 , 则 需 将 原始 模型 的 两 边 同 除 以 x; 对 于 加 权 最 小 二 乘法 来 说 ， 
关键 是 如 何 确定 权重 ， 根 据 多 方 资料 的 搜索 和 验证 ， 一 般 选择 如 下 三 种 权重 来 进行 对 比 测试 : 


@” 残 差 绝对 值 的 倒数 作为 权重 。 

@ 残 差 平方 的 倒数 作为 权重 。 

日 用 残 差 的 平方 对 数 与 自 变量 X 重 新 拟 合 建 模 ， 并 将 得 到 的 拟 合 值 取 指数 ， 用 指数 的 倒数 作为 
权重 。 


3. 回归 模型 的 预测 
经 过 前 文 的 模型 构造 、 假 设 检验 和 模型 诊断 ， 最 终 确 定 合理 的 模型 model4。 接 下 来 要 做 的 就 
是 利用 该 模型 完成 测试 集 上 的 预测 ， 有 具体 代码 如 下 : 


# model4 对 测试 集 的 预测 

Pred4 = model4.predict (exog = test.ix[:,['RD Spend','Marketing Spend']]) 

# 绘制 预测 值 与 实际 值 的 散 点 图 

plt.scatter(x = test.Profit, y = pred4) 

# 添加 斜率 为 1、 截 距 项 为 0 的 参考 线 

plt.plot([test.Profit.min(),test.Profit.max()], [test.Profit.min(),test.Profit.max()], 
color = 'red', linestyle = '——') 

# 添加 轴 标签 

Plt.xlabel(' 实 际 值 ') 

plt.ylabel (' 预 测 值 ') 











# 显示 图 形 
plt.show() 
见 图 7-8。 
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图 7-8 预测 值 与 实际 值 的 对 比 图 


如 图 7-8 所 示 , 绘制 了 有 关 模 型 在 测试 集 上 的 预测 值 和 实际 值 的 散 点 图 , 该 散 点 图 可 以 用 来 衡 
量 预 测 值 与 实际 值 之 间 的 距离 差异 。 如果 两 者 非常 接近 , 那么 得 到 的 散 点 图 一 定 会 在 对 角 线 附近 微 
微波 动 。 从 图 7-8 的 结果 来 看 , 大 部 分 的 散 点 都 落 在 对 角 线 附 近 , 说 明 模型 的 预测 效果 还 是 不 错 的 。 
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7.5 本 章 小 结 


本 章 重点 介绍 了 有 关 线 性 回归 模型 的 理论 知识 与 应 用 实战 ， 内 容 包含 模型 回归 系数 的 求解 、 





模型 及 系数 的 显著 性 检验 、 模 型 的 假设 诊断 及 预测 。 在 实际 应 用 中 ,如 果 因 变 量 为 数值 型 变量 ， 可 

















以 考虑 使 用 线性 回归 模型 ， 但 是 前 提 得 满足 几 点 假设 ， 如 因 变 量 服从 正 态 分 布 、 自 变量 间 不 存在 多 
重 共 线性 、 自 变量 与 因 变量 之 间 存 在 线性 关系 、 用 于 建 模 的 数据 集 不 存在 异常 点 、 残 差 项 满足 方差 
异性 和 独立 性 。 
为 了 使 读者 掌握 有 关 线 性 回归 模型 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 查 
阅 和 记忆 : 
Python 模块 Python 函数 或 方法 函数 说 明 
ols 构建 线性 回归 模型 的 函数 
fit 基于 模型 的 参数 拟 合 “方法 ” 
predict 基于 模型 的 预测 “方法 ” 
params 返回 模型 的 回归 系数 
fvalue 返回 模型 显著 性 检验 的 f 值 
tvalues 返回 回归 系数 显著 性 检验 的 + 值 
summary 返回 模型 概览 信息 的 “方法 ” 
ppplot 绘制 PP 图 的 函数 
statsmodels qqplot 绘制 QQ 图 的 函数 
variance_inflation_factor 计算 方差 膨胀 因子 的 函数 
get influence 基于 模型 的 异常 值 获取 “方法 ” 
hat matrix diag 返回 帽子 矩阵 的 对 角 线 元 素 
dffits 返回 DFFITS 准则 的 统计 量 
resid_studentized_extemal 返回 标准 化 残 差 的 统计 量 
cooks_distance 返回 Cook 距离 的 统计 量 
het_breushpagan 用 于 检验 误差 方差 齐 性 的 函数 
kstest K-S 正 态 性 检验 函数 
Scipy shapiro Shapiro 正 态 性 检验 函数 
ppf 计算 分布 分 位 点 的 函数 
pandas corrwith 计算 Perason 相关 系数 的 “方法 ” 
sklearn train_test_split 用 于 分 割 训练 集 和 测试 集 的 函数 














第 8 章 


岭 回归 与 LASSO 回归 模型 


第 7 章 介 绍 了 有 关 线性 回归 模型 的 理论 知识 和 应 用 实战 ， 包 括 回归 系数 的 推导 过 程 、 模 型 及 
偏 回 归 系 数 的 显著 性 检验 、 模 型 的 假设 诊断 和 预测 。 根 据 线性 回归 模型 的 参数 估计 公式 
B = (X'X)-1X'y 可 知 ， 得 到 B 的 前 提 是 矩阵 XX 可 逆 ， 但 在 实际 应 用 中 ， 可 能 会 出 现 自 变量 个 数 多 
于 样本 量 或 者 自 变量 间 存 在 多 重 共 线 性 的 情况 ， 此 时 将 无 法 根据 公式 计算 回归 系数 的 估计 值 B。 为 
解决 这 类 问题 ， 本 章 将 基于 线性 回归 模型 介绍 另外 两 种 扩展 的 回归 模型 ， 它 们 分 别 是 岭 回 归 和 
LASSO 回归 。 通 过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 如 下 内 容 
岭 回归 与 LASSO 回归 的 系数 求解 ; 
系数 求解 的 几何 意义 ; 

LASSO 回归 的 变量 选择 ; 
岭 回归 与 LASSO 回归 的 预测 
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8.1 岭 回 归 模 型 


为 了 能 够 使 读者 理解 为 什么 自 变量 个 数 多 于 样本 量 或 者 自 变量 间 存 在 多 重 共 线性 时 间 归 系数 
的 估计 值 B 就 无 法 求解 的 原因 ， 这 里 不 妨 设计 两 种 矩阵 X， 并 分 别 计算 矩阵 X'X 的 行列 式 。 

第 一 种 ， 当 列 数 比 行 数 多 时 

构造 垂 阵 : X= 上 2 5 





计算 乘积 : X'X = 





芝 六 号 3 3 23 
2 1 EE 3]= 13 

2 多 34 
me 


-37x13Xx13 一 8x8x34 一 23x5x23=0 
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式 都 等 于 0 或 者 近似 为 0, 类 似 于 这 样 的 矩阵 都 会 导致 线性 回归 模型 的 偏 回 归 系数 无 解 或 者 解 是 无 


意义 的 (因为 矩阵 X'X 的 行列 式 近 似 为 0 时 ,其 逆 甜 阵 将 偏 于 无 穷 大 , 从 而 使 得 回归 系数 也 被 放大 )。 


针 


回 





8. 


4B? 也 会 趋 于 无 穷 大 ,为 了 使 目标 函数 /(B) 达 到 最 小 , 只 


第 二 种 : 当 列 之 间 存 在 多 重 共 线性 时 (不妨 第 三 列 是 第 二 列 的 两 倍 ) 
1 
构造 矩阵 : X = Es 5 | 


4 | 18 18 

计算 乘积 : X'X 本 5 | 5 中- | 38 下 
2 44l2 3 4| li18 36 36 

计算 行列 式 : |X'X| =9x38x36+18x36x18+18x18x36 
-9x36x36 一 18x18x36 一 18x38x18=0 


所 以 ， 不 管 是 自 变量 个 数 多 于 样本 量 的 矩阵 还 是 存在 多 重 共 线性 的 和 矩阵， 最 终 算 出 来 的 行列 





对 这 个 问题 的 解决 ，1970 年 Heer 提出 了 岭 回归 模型 ， 可 以 非常 巧妙 地 解决 这 个 难题 ， 即 在 线性 


归 模 型 的 目标 函数 之 上 添加 一 个 12 的 正则 项 ， 进 而 使 得 模型 的 回归 系数 有 解 。 





1.1 参数 求解 


正如 前 文 所 说 ， 岭 回归 模型 的 功效 可 以 解决 线性 回归 模型 系数 求解 中 的 难题 ， 解 决 问题 的 思 
路 就 是 在 线性 回归 模型 的 目标 函数 之 上 添加 12 正 则 项 (也 称 为 惩罚 项 ) ， 故 岭 回归 模型 的 目标 函数 
可 以 表示 成 : 





18) = 0 x8) +AplB= Dxp) +》 ap 


其 中 , 4 为 非 负 数 , 当 4X = 0 时 , 该 目标 函数 就 退化 为 线性 回归 模型 的 目标 函数 ; 当 14 一 +oo 时 ， 


示 回 归 系 数 pB 的 平方 和 。 


为 求解 目标 函数 J(B) 的 最 小 值 ， 需 要 对 其 求 导 ， 并 令 导 函数 为 0， 具体 推导 过 程 如 下 : 


一 步 : 根据 线性 代数 的 知识 点 ， 展 开 目 标 函 数 中 的 平方 项 
J(8) = 一 Xp) — xp) + 28'8 
= —B'X) — XB) + a8'p 
=y'y—y'XB — BP'X'y+ PB'X'XB +2p'B 
第 二 步 : 对 展开 的 目标 函数 求 导数 
oCB) 


G8 = 0—Xy—Xy+2X'XB +228 


=2(X'X+ADB -2X'y 
第 三 步 : 令 导 函数 为 0， 计 算 回 归 系数 B 


2(X'X+ADB —2X'y=0 
“B=(XX+AU) IX'y 


:能 通过 缩减 回归 系数 使 8 趋 近 于 0; 118 尼 表 


通过 上 面 的 推导 ， 最 终 可 以 获得 回归 系数 8 的 估计 值 ， 但 估计 值 中 仍然 含有 未 知 的 4 值 ， 从 目 
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标 函 数 /J(B) 来 看 ，4 是 12 正 则 项 平方 的 系数 ， 用 来 平衡 模型 的 方差 (回归 系数 的 方差 ) 和 偏差 ( 真 
实 值 与 预测 值 之 间 的 差异 ) 。 为 了 使 读者 理解 模型 方差 和 偏差 的 概念 ， 请 参考 图 8-1。 
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图 8-1 模型 复杂 度 与 偏差 方差 之 间 的 关系 


如 图 8-1 所 示 ， 横 坐标 为 模型 的 复杂 度 ， 纵 坐标 为 模型 的 预测 误差 ， 下 面 的 曲线 代表 的 是 模型 
在 训练 集 上 的 效果 ， 上 面 的 曲线 代表 的 是 模型 在 测试 集 的 效果 。 从 预测 效果 的 角度 来 看 ， 随 着 模型 
复杂 度 的 提升 ， 在 训练 集 上 的 预测 效果 会 越 来 越 好 ,呈现 在 下 面 的 曲线 就 是 预测 误差 越 来 越 低 , 但 
是 模型 运用 到 测试 集 的 话 ， 预 测 误差 就 会 呈现 上 面 曲线 的 变化 ， 先 降低 后 上 升 ， 上 升 的 时 候 就 说 明 
模型 可 能 出 现 了 过 拟 合 ， 从 模型 方差 角度 来 看 ， 模 型 方差 会 随 着 复杂 度 的 提升 而 提升 。 针 对 图 8-1 
而 言 ， 希 望 通 过 平衡 方差 和 偏差 来 选择 一 个 比较 理想 的 模型 ， 对 于 岭 回 归来 说 ， 随 着 4 的 增 大 ， 模 
型 方差 会 减 小 (因为 矩 阵 (X'X + 0) 的 行列 式 随 4 的 增加 在 增加 ， 使 得 矩阵 的 逆 就 会 逐渐 减 小 ， 进 
而 岭 回 归 系 数 被 “压缩 ”而 变 小 ) 而 偏差 会 增 大 。 





8.1.2 系数 求解 的 几何 意义 


根据 凸 优化 的 相关 知识 ， 可 以 将 岭 回归 模型 的 目标 函数 /8) 最 小 化 问题 等 价 于 下 方 的 式 子 : 


to 一 xp) } 


附加 约束 > Bp? <t 


其 中 ，t 为 一 个 常数 。 上 式 可 以 理解 为 ， 在 确保 残 差 平方 和 最 小 的 情况 下， 限定 所 有 回归 系数 
的 平方 和 不 超过 常数 t。 

读者 可 能 不 理解 为 什么 要 对 回归 系数 的 平方 和 进行 约束 ， 这 里 举 一 个 特例 加 以 解释 。 例 如 ， 
影响 一 个 家 庭 可 支配 收入 (y) 的 因素 有 收入 (x1) 和 支出 (x2)， 很 明显 ， 收 入 和 支出 之 间 会 存在 比价 高 
的 相关 性 。 在 做 线性 回归 时 ,可 能 会 产生 一 个 非常 大 的 正 系数 和 一 个 非常 大 的 负 系数 , 最 终 导 致 模 
型 的 拟 合 效果 不 佳 。 如 果 给 线性 回归 模型 的 系数 添加 平方 和 的 约束 ， 就 可 以 避免 这 种 情况 的 发 生 。 
为 了 进一步 理解 目标 函数 中 argmin{ZCy - X8) 人 和 ?82 入 t 的 几何 意义 , 这 里 仅 以 两 个 自 变量 
的 回归 模型 为 例 ， 将 目标 函数 中 的 两 个 部 分 表示 为 图 8-2。 
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图 8-2 目标 函数 加 上 12 正 则 项 的 示意 图 


如 图 8-2 所 示 ， 左 图 为 立体 图 形 ， 右 图 为 对 应 的 二 维 投影 图 。 左 图 中 的 半 椭 圆 体 代表 了 
21(yi 一 Bo 一 31xyjBj) 的 部 分 ， 它 是 关于 两 个 系数 的 二 次 函数 ， 圆 柱 体 代表 了 妈 + 妈 < t 的 部 
分 。 将 其 映射 到 二 维 坐标 图 中 也 许 更 容易 理解 有 关 非 负数 1 对 回归 系数 的 缩减 ， 对 于 线性 回归 模型 
来 说 ， 抛 物 面 的 中 心 黑 点 代表 模型 的 最 小 二 乘 解 ， 当 附加 8 + 832 < t 时 ， 抛 物 面 与 圆 面 构成 的 交 
点 就 是 岭 回归 模型 的 系数 解 。 从 图 中 不 难 发 现 , 岭 回归 模型 的 系数 相 比 于 线性 回归 模型 的 系数 会 偏 
小 ， 从 而 达到 “压缩 ”效果 。 

虽然 岭 回 归 模型 可 以 解决 线性 回归 模型 中 X'X 不 可 逆 的 问题 ， 但 付出 的 代价 是 “压缩 ”回归 系 
数 ， 从 而 使 模型 更 加 稳定 和 可 靠 。 由 于 惩罚 项 另 48? 是 关于 回归 系数 8 的 二 次 函数 ， 所 以 求 目标 函 
数 的 极 小 值 时 ， 对 其 偏 导 总 会 保留 自 变 量 本 身 。 正 如 图 8-2 所 示 ， 抛物 面 与 圆 而 的 交点 很 难 发 生 在 
轴 上 ， 即 某 个 变量 的 回归 系数 8 为 0， 所 以 岭 回 归 模 型 并 不 能 从 真正 意义 上 实现 变量 的 选择 。 


























8.2 ”上 岭 回归 模型 的 应 用 


为 了 将 岭 回 归 模型 的 理论 知识 应 用 到 实战 ， 接 下 来 以 糖尿 病 数 据 集 为 例 ， 该 数据 集 包 含 442 
条 观测 、10 个 自 变量 和 1 个 因 变 量 。 这 些 自 变量 分 别 为 患者 的 年 龄 、 性 别 、 体 质 指 数 、 平 均 血 压 
及 六 个 血清 测量 值 ; 因 变量 为 糖尿 病 指数 , 其 值 越 小 , 说 明 糖 尿 病 的 治疗 效果 越 好 。 根 据 文献 可 知 ， 
对 于 胰岛 素 治疗 糖尿 病 的 效果 表明 ， 性别 和 年 龄 对 治疗 效果 无 显著 影响 , 所 以 , 在 接 下 来 的 建 模 中 
将 丢弃 这 两 个 变量 。 

由 前 文 可 知 ， 岭 回归 模型 的 系数 表达 式 为 B = (X'X 十 X)-1X'y， 故 关键 点 是 找到 一 个 合理 的 4 
值 来 平衡 模型 的 方差 和 偏差 ， 进 而 得 到 更 加 符合 实际 的 岭 回归 系数 。 关 于 4 值 的 确定 ， 通 常 可 以 使 
用 两 种 方法 ， 一 种 是 可 视 化 方法 ， 男 一 种 是 交叉 验证 法 。 











8.2.1 可 视 化 方法 确定 4 值 


由 于 岭 回 归 模型 的 系数 是 关于 4 值 的 函数 ， 因 此 可 以 通过 绘制 不 同 的 4 值 和 对 应 回归 系数 的 折线 图 
确定 合理 的 4 值 。 一 般 而 言 ， 当 回归 系数 随 着 4 值 的 增加 而 趋 近 于 稳定 的 点 时 就 是 所 要 寻找 的 4 值 。 
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由 于 折 现 图 中 涉及 岭 回归 模型 的 系数 ， 因 此 第 一 步 要 根据 不 同 的 4 值 计 算 相 应 的 回归 系数 。 在 








Python 中 ， 可 以 使 用 sklearn 子 模块 linear model 中 的 Ridge 类 实现 模型 系数 的 求解 ， 接 下 来 介绍 
一 下 该 “类 ”的 语法 和 参数 含义 : 


Ridge (alpha=1.0, fit intercept=True, normalize=False, copy X=True, 
max_iter=None, tol=0.001, solver='auto', random state=None) 

alpha: 用 于 指定 lambda 值 的 参数 ， 默 认 该 参数 为 1。 

fit_intercept: bool 类 型 参数 ， 是 否 需要 拟 合 截 距 项 ， 默 认为 True。 

normalize: bool 类 型 参数 ， 建 模 时 是 否 需要 对 数据 集 做 标准 化 处 理 ， 默 认为 False。 

copy_X: bool 类 型 参数 ， 是 否 复制 自 变量 X 的 数值 ， 默 认为 True。 

max_iter: 用 于 指定 模型 的 最 大 和 迭代 次 数 。 

tol: 用 于 指定 模型 收敛 的 阅 值 。 

solver: 用 于 指定 模型 求解 最 优化 问题 的 算法 , 默认 为 'auto', 表示 模型 根据 数据 集 自动 选择 算法 。 

random_state: 用 于 指定 随机 数 生成 器 的 种 子 。 


通过 Ridge“ 类 ”完成 岭 回归 模型 求解 的 参数 设置 ， 然 后 基于 fit“ 方 法 ”实现 模型 偏 E 








归 系 数 








的 求解 。 下 面 利用 糖尿 病 数据 集 绘制 不 同 的 4 值 下 对 应 回归 系数 的 折线 图 ， 有 具体 代码 如 下 : 





# 导入 第 三 方 模块 

import pandas as pd 

import numpy as np 

from sklearn import model_selection 

from sklearn.linear model import Ridge,RidgeCV 
import matplotlib.pyplot as plt 


# 读 取 糖 尿 病 数 据 集 
diabetes = pd.read excel(r'C:\Users\Administrator\Desktop\diabetes.xlsx', sep = "'') 
# 构造 自 变 量 〈 别 除 患者 性 别 、 年 龄 和 因 变 量 ) 
Predictors = diabetes.columns[2:-1] 
# 将 数据 集 拆 分 为 训练 集 和 测试 集 
XxX train, X test, y train, y test = model selection.train test split (diabetes [predictors], 
diabetes['Y'], 
test_size = 0.2, 
random_state = 1234 ) 
# 构造 不 同 的 Lambda 值 
Lambdas = np.logspace(-5, 2, 200) 
# 构造 空 列表 ， 用 于 存储 模型 的 偏 回归 系数 
ridge_cofficients = [] 
# 循环 选 代 不 同 的 Lambda 值 
for Lambda in Lambdas: 
ridge = Ridge (alpha = Lambda, normalize=True) 
ridge.fit (X train, y_train) 
ridge cofficients.append (ridge.coef ) 


# 绘制 alpha 的 对 数 与 回归 系数 的 关系 

# 中 文 乱码 和 坐标 轴 负 号 的 处 理 
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 

# 设置 绘图 风格 

plt.style.use('ggplot') 
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和 


plt.plot (Lambdas, ridge cofficients) 


# 对 x 轴 做 对 数 处 理 
Plt.xscale('l0g') 

# 设置 折线 图 x 轴 和 y 轴 标签 
plt.xlabel ('Log(Lambda) ') 
plt.ylabel ('Cofficients') 
# 图 形 显示 

plt.show() 


见 图 8-3。 
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8-3 ”正则 项 系数 与 回归 系数 之 间 的 关系 


如 图 8-3 所 示 ， 展 现 了 不 同 的 4 值 与 回归 系数 之 间 的 折线 图 ， 图 中 的 每 条 折线 代表 了 不 同 的 变 
量 ， 对 于 比较 突出 的 喇叭 形 折线 ， 一 般 代 表 该 变量 存在 多 重 共 线性 。 从 图 8-3 可 知 ， 当 4 值 逼近 于 
0 时 ， 各 变量 对 应 的 回归 系数 应 该 与 线性 回归 模型 的 最 小 二 乘 解 完全 一 致 ， 随 着 4 值 的 不 断 增加 ， 





和 22 


交叉 验证 法 确定 4 值 


回归 系数 的 取 值 会 迅速 缩减 为 0。 最后， 按照 1 值 的 选择 标准 ， 发 现 1 值 在 0.01 附近 时 ， 绝 大 多 
数 变 量 的 回归 系数 趋 于 稳定 ， 故 认为 4 值 可 以 选择 在 0.01 附近 。 


可 视 化 方法 只 能 确定 4 值 的 大 概 范围 ,为 了 能 够 定量 地 找到 最 佳 的 4 值 ， 需 要 使 用 k 重 交叉 验证 
的 方法 。 该 方法 的 操作 思想 可 以 借助 于 图 8-4 加 以 说 明 。 


1 .. a 
- EE 
nl Wl IE WE 
ees 
测试 集 讽 练 集 


8-4 ”交叉 验证 的 示意 图 
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如 图 8-4 所 示 ， 首 先 将 数据 集 拆 分 成 k 个 样本 量 大 体 相当 的 数据 组 (如 图 中 的 第 一 行 )， 并且 


每 个 数据 组 与 其 他 组 都 没有 重 倒 的 观测 ; 然后 从 k 组 数据 中 挑选 k 一 1 组 数据 用 于 模型 的 训练 , 剩 下 























的 一 组 数据 用 于 模型 的 测试 (如 图 中 的 第 二 行 》; 以 此 类 推 ， 将 会 得 到 k 种 训练 集 和 测试 集 。 在 每 
一 种 训练 集 和 测试 集 下 ， 都 会 对 应 一 个 模型 及 模型 得 分 (如 均 方 误差 ) 。 所 以 ,在 构造 岭 回归 模型 
的 k 重 交叉 验证 时 ， 对 于 每 一 个 给 定 的 4 值 都 会 得 到 k 个 模型 及 对 应 的 得 分 ， 最 终 以 平均 得 分 评估 模 
型 的 优良 。 

实现 岭 回 归 模 型 的 k 重 交叉 验证 ， 可 以 使 用 sklearn 子 模块 linear model 中 的 RidgeCV 类 ， 下 

面 介绍 有 关 该 “类 ”的 语法 及 参数 含义 : 

RidgeCV (alphas=(0.1, 1.0, 10.0), fit intercept=True, normalize=False, 

scoring=None, cv=None, gcv_ mode=None, store cv_values=False) 

@ alphas: 用 于 指定 多 个 lambda 值 的 元 组 或 数组 对 象 ， 默 认 该 参数 包含 0.1、1 和 10 三 种 值 。 

® ”fit_intercept: bool 类 型 参数 ， 是 否 需要 拟 合 截 距 项 ， 默 认为 True。 

enormalize: bool 类 型 参数 ， 建 模 时 是 否 需要 对 数据 集 做 标准 化 处 理 ， 默 认为 False。 

@ scoring: 指定 用 于 评估 模型 的 度量 方法 。 

@ cv: 指定 交叉 验证 的 重 数 。 

@ gcv_mode: 用 于 指定 执行 广义 交叉 验证 的 方法 ， 当 样本 量 大 于 特征 数 或 自 变 量 天 阵 X 为 稀 足 
矩阵 时 ， 该 参数 选用 'auto'; 当 该 参数 为 'svd'" 时 ， 表 示 通 过 矩 阵 X 的 奇异 值 分 解 方法 执行 广义 
交叉 验证 ; 当 该 参数 为 'engin' 时 , 则 表示 通过 矩阵 X'X 的 特征 根 分 解 方法 执行 广义 交叉 验证 。 

@ store_cv_values: bool 类 型 参数 ,是否 在 每 一 个 Lambda 值 下 都 保存 交叉 验证 得 到 的 评估 信息 ， 
默认 为 False， 只 有 当 参 数 cv 为 None 时 有 效 。 

为 了 得 到 岭 回归 模型 的 最 佳 1 值 ， 下 面 使 用 RidgeCV 类 对 糖尿 病 数据 集 做 10 重 交 叉 验证 ， 具 

体 代码 如 下 : 

# 设置 交叉 验证 的 参数 ， 对 于 每 一 个 Lambda 值 ， 都 执行 10 重 交叉 验证 

ridge cv = RidgeCV(alphas = Lambdas, normalize=True, scoring='neg mean_ squared error', 

# 模型 拟 合 Rh 

ridge cv.fit(X train, y train) 

# 返回 最 佳 的 lambda 值 

ridge best Lambda = ridge cv.alpha 

ridge_best_Lambda 

out; 

0.013509935211980266 

如 上 结果 所 示 ， 运 用 10 重 交 又 验 证 方法 得 到 最 佳 的 4 值 为 0.0135， 与 可 视 化 方法 确定 的 4 值 在 

0.01 附近 保持 一 致 。 该 值 的 评判 标准 是 : 对 于 每 一 个 4 值 计算 平均 均 方 误差 (MSE) ， 然 后 从 中 挑 


选 出 最 小 的 平均 均 方 误差 ， 并 将 对 应 的 4 值 挑选 出 来 ， 作 为 最 佳 的 惩罚 项 系数 14 的 值 。 


8.2 


.3 ”模型 的 预测 


建 模 的 目的 就 是 对 未 知 数据 的 预测 ， 所 以 接 下 来 需要 运用 岭 回 归 模 型 对 测试 集 进行 预测 ， 进 
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而 比 对 预测 值 与 实际 值 之 间 的 差异 , 评估 模型 的 拟 合 能 力 。 根据 上 一 节 内 容 , 通过 交叉 验证 方法 获 
得 了 最 佳 的 4 值 ， 并 根据 该 值 构建 岭 回归 模型 ， 输 出 模型 的 偏 回归 系数 ， 进 而 可 以 使 用 该 模型 对 测 
试 数据 集 进行 预测 ， 操 作 代码 如 下 : 

# 基于 最 佳 的 Lambda 值 建 模 

ridge = Ridge (alpha = ridge best alpha, normalize=True) 

ridge.fit(X train, y train) 

# 返回 岭 回归 系数 

pd.Series(index = ['Intercept'] + X train.columns.tolist(), 

data = [ridge.intercept ] + ridge.coef .tolist()) 





out: 

Intercept -323.114952 
BMI 6.208205 

BP 0.927412 

S1 -0.489199 

S2 0.210826 

S3 0.028643 

S4 4.211265 

S5 51.688690 

S6 0.384038 





如 上 结果 所 示 ， 运 用 最 佳 的 4 值得 到 岭 回 归 模型 的 回归 系数 ， 故 可 以 将 岭 回归 模型 表达 为 下 方 

的 式 子 : 
Y=—323.11 + 6.21BMI+ 0.93BP — 0.4951 + 0.2152 + 0.0353 
+4.21S4 十 51.69S5 + 0.38S6 

上 式 中 对 岭 回归 系数 的 解释 方法 与 多 元 线性 回归 模型 一 致 , 以 体质 指数 BM/ 为 例 , 在 其 他 变量 
不 变 的 情况 下 ， 体 质 指数 每 提升 1 个 单位 ， 将 促使 糖尿 病 指 数 Y 提 升 6.21 个 单位 。 接 着 ， 需 要 使 用 
该 模型 对 测试 集中 的 数据 进行 预测 : 

# 导入 第 三 方 包 中 的 函数 


from sklearn.metrics import mean squared error 





# 模型 的 预测 

ridge predict = ridge.predict(X test) 

# 预测 效果 验证 

RMSE = np.sqrt (mean squared error(y test,ridge predict)) 
RMSE 


out: 
53.120889598460927 


如 上 结果 所 示 ， 通 过 预测 后 ， 使 用 均 方 根 误差 RMSE 对 模型 的 预测 效果 做 了 定量 的 统计 值 ， 
结果 为 53.121。 有 关 RMSE 的 计算 公式 如 下 : 





ZE — N)? 
n 


其 中 ，n 代 表 预 测 集中 的 样本 量 ，y; 代 表 因 变量 的 实际 值 ， 贫 为 因 变 量 的 预测 值 。 对 于 该 统计 
量 ， 值 越 小 ， 说 明 模型 对 数据 的 拟 合 效果 越 好 。 


RMSE = 
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8.3 LASSO 回归 模型 


正如 8.1.1 节 所 说 ， 岭 回归 模型 可 以 解决 线性 回归 模型 中 矩阵 X'X 不 可 逆 的 问题 ， 解 决 的 办 法 
是 添加 乙 正 则 的 惩罚 项 ， 最 终 导致 偏 回归 系数 的 缩减 。 但 不 管 怎么 缩减 ， 都 会 始终 保留 建 模 时 的 所 
有 变量 , 无 法 降低 模型 的 复杂 度 , 为 了 克服 这 个 缺点 , 1996 年 Robert Tibshirani 首次 提出 了 LASSO 
回归 。 

与 岭 回归 模型 类 似 ，LASSO 回归 同样 属于 缩减 性 估计 ， 而 且 在 回归 系数 的 缩减 过 程 中 ， 可 以 
将 一 些 不 重要 的 回归 系数 直接 缩减 为 0， 即 达到 变量 筛选 的 功能 。 之 所 以 LASSO 回归 可 以 实现 该 
功能 ， 是 因为 原本 在 岭 回归 模型 中 的 惩罚 项 由 平方 和 改 成 了 绝对 值 ， 虽 然 只 是 稍 做 修改 ， 但 形成 的 
结果 却 大 相 径 庭 。 

首先 ， 对 比 岭 回归 模型 的 目 标 函 数 ， 可 以 将 LASSO 回归 模型 的 目标 函数 表示 为 下 方 的 公式 : 

1(8) = > 0 -Xp) +lph=>O-xp) +>Mlpl 

其 中 ， 刘 8 为 目标 函数 的 惩罚 项 ， 并 且 1 为 惩罚 项 系数 ， 与 岭 回归 模型 中 的 惩罚 系数 一 致 ， 

需要 迭代 估计 出 一 个 最 佳 值 ，||Bl 为 回归 系数 8 的 L1 正 则 ， 表 示 所 有 回归 系数 绝对 值 的 和 。 

















8.3.1 参数 求解 


由 于 目标 函数 的 惩罚 项 是 关于 回归 系数 8 的 绝对 值 之 和 ， 因 此 惩罚 项 在 零点 处 是 不 可 导 的 ， 那 
么 应 用 在 岭 回 归 上 的 最 小 二 乘法 将 在 此 失效 ,不 仅 如 此 , 梯度 下 降 法 、 牛 顿 法 与 拟 牛 顿 法 都 无 法 计 
算出 LASSO 回归 的 拟 合 系数 。 为 了 能 够 得 到 LASSO 的 回归 系数 ， 下 面 将 介绍 坐标 轴 下 降 法 。 

坐标 轴 下 降 法 与 梯度 下 降 法 类 似 ， 都 属于 迭代 算法 ， 所 不 同 的 是 坐标 轴 下 降 法 是 沿 着 坐标 轴 
(维度 ) 下 降 ， 而 梯度 下 降 则 是 沿 着 梯度 的 负 方 向 下 降 。 坐 标 轴 下 降 法 的 数学 精髓 是 ， 对 于 p 维 参 
数 的 可 微 凸 函 数 /(B) 而 言 , 如 果 存 在 一 点 语 , 使 得 函数 /(B) 在 每 个 坐标 轴 上 均 达 到 最 小 值 , 则 J(B) 就 
是 点 让 上 的 全 局 最 小 值 。 

可 能 上 面 的 说 明 比 较 临 涩 ， 换 一 种 说 法 也 许 能 够 帮助 读者 理解 坐标 轴 下 降 法 的 精 血 。 以 多 元 
线性 回归 模型 为 例 ， 求 解 目标 函数 2(0y 一 XB) 的 最 小 值 ， 其 实 是 对 整个 8 做 一 次 性 偏 导 。 而 坐标 轴 
下 降 法 ， 则 是 对 目标 函数 中 的 某 个 Bj 做 偏 导 ， 即 控制 其 他 p 一 1 个 参数 不 变 的 情况 下 ， 沿 着 一 个 轴 
的 方向 求 导 ， 以 此 类 推 ， 再 对 剩 下 的 p 一 1 个 参数 求 偏 导 。 最 终 ， 令 每 个 分 量 下 的 导 函 数 为 0， 得 
到 使 目标 函数 达到 全 局 最 小 的 Bb。 

将 LASSO 回归 的 目标 函数 写成 下 方 的 式 子 : 





n 


p p 
/18)= > @ Som) +122 = ESS(B) + AL(B) 


i=1 


其 中 ，ESS(8) 代 表 误 差 平 方 和 ，40(B) 代 表 惩 罚 项 。 由 于 ESS(B) 是 可 导 的 凸 函 数 ， 因 此 可 以 
对 该 函数 中 的 每 个 分 量 记 做 偏 导 。 
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首先 将 ESS(B) 展 开 ， 





ESS(8) = 


n 


I 


i=1 


然后 ， 对 ESS(B) 做 Bj 的 偏 导数 : 


DESS(B) 
opB; 





-> 


为 了 方便 起 见 , 令 mj = 
偏 导数 可 以 表示 成 -2mj+2Bjnj 。 


由 于 惩罚 项 是 不 可 导 函 数 ， 故 不 能 直接 使 用 梯度 方法 ， 而 使 用 次 梯度 方法 ， 


-2 of- > Pen) 一 及 用 CD 


1 h(xi) (yi 一 


并 假设 xij = hy(xi)， 则 : 


n 


p 名 
€ 二 2 po 
j=1 


2 
jhy 0 -zy 介 Bhy om] 


+ 2 于 he)? 


i=1 


人 1hjy(xi)>， 所 以 ESS(B) 对 Bj 的 


i=1 
p 


(2 


=1 


天 二 三 


广 mm 人- > Beir Ce) 


kj 


Eri Brhx(xi)), ny = 


它 的 诞生 就 是 为 


了 求解 不 可 导 凸 函数 的 最 小 值 问题 。 对 于 某 个 分 量 pj 来 说 ， 和 一 罚 项 可 以 表示 成 4|Bj|， 故 在 Bj 处 的 次 




















导 函 数 为 : 
当 B; > 0 
aXl 
i [ -X11], p=0 
a 
-4 当 p;<0 
为 求解 最 终 的 LASSO 回归 系数 , 需要 将 ESS(B) 与 441(B) 的 分 量 导 函数 相 结 合 , 并 令 导 函数 为 0: 
0ESS(B) an) _ —2m +2Bm +4=0 
5 二 [-2m —1,—2m +1]=0 
和 a +2Bm—4=0 
浊 
(mw — Dm, 当 m; > 2 
这 先进 
wn sme[-:, 悦 
(9 Om sm 
如 上 公式 所 示 ， 最 终 获 得 LASSO 回归 的 模型 系数 ， 而 且 系 数 将 依赖 于 4 值 ， 得 到 三 种 不 同 的 
让 
8.3.2 ”系数 求解 的 几何 意义 


同 理 , 依据 凸 优化 原理 , 将 LASSO 





回归 模型 目标 函数 /0B) 的 最 小 化 问题 等 价 转换 为 下 方 的 式 子 : 
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argmin De 一 xp)} 
附加 约束 >》 IB1 < 
其 中 ，t 为 常数 ， 可 以 将 上 面 的 公式 理解 为 :在 残 差 平方 和 最 小 的 情况 下 ， 限 定 所 有 回归 系数 
的 绝对 值 之 和 不 超过 常数 t。 
为 了 使 读者 理解 目标 函数 中 argmin{ 了 Cy 一 XB)”} 和 IB| 去 t 的 几何 意义 , 这 里 仅 以 两 个 自 变量 
的 回归 模型 为 例 ， 将 目标 函数 中 的 两 个 部 分 表示 为 如 图 8-5 所 示 。 


ESS 











Ba 
图 8-5 目标 函数 加 上 1!1 正 则 项 的 示意 图 


如 图 8-5 所 示 ， 左 图 为 三 维 立 体 图 形 ， 右 图 为 对 应 的 二 维 投 影 图 。 左 图 中 的 半 椭 圆 体 仍然 代表 
(yi-Bo — 3-1xyB)) 的 部 分 ， 它 是 关于 两 个 系数 的 二 次 函数 ; 正方 体 则 代表 了 |Bi| + |B2| 专 t 的 
部 分 ， 之 所 以 是 正方 体 ， 是 因为 B 前 的 系数 均 为 1。 将 其 映射 到 二 维 坐标 图 中 就 能 够 理解 为 什么 
LASSO 回归 可 以 做 到 非 重 要 变量 的 删除 ， 从 图 8-5 可 知 , 将 LASSO 回归 的 惩罚 项 映射 到 二 维 空间 
的 话 ， 就 会 形成 “ 角 ”， 一 旦 “和 角 ” 与 抛物 面相 交 ， 就 会 导致 为 0， 进 而 实现 变量 的 删除 。 而 且 
相 比 于 圆 面 ，1 红 正则 项 的 方 框 项 点 更 容易 与 抛物 面相 交 ， 起 到 变量 筛选 的 效果 。 

所 以 ，LASSO 回归 不 仅 可 以 实现 变量 系数 的 缩减 〈 如 二 维 图 中 ， 抛 物 面 的 最 小 二 乘 解 由 黑 点 
转移 到 了 相交 的 红 点 ，pB, 系 数 明 显 被 “压缩 ”了 ) ， 而 且 还 可 以 完成 变量 的 筛选 ， 对 于 无 法 影响 因 
变量 的 自 变 量 ，LASSO 回归 都 将 其 过 滤 掉 。 














8.4 LASSO 回归 模型 的 应 用 


由 于 LASSO 回归 模型 的 目标 函数 包含 惩罚 项 系数 1， 因 此 在 计算 模型 回归 系数 之 前 ， 仍 然 需 
要 得 到 最 理想 的 4 值 。 与 岭 回归 模型 类 似 ，4 值 的 确定 可 以 通过 定性 的 可 视 化 方法 和 定量 的 交叉 验 
证 方法 ， 下 面 逐一 介绍 这 两 种 方法 选 定 惩罚 项 系数 1 的 值 。 











8.4.1 可 视 化 方法 确定 4 值 


可 视 化 方法 是 通过 绘制 不 同 的 4 值 与 回归 系数 的 折线 图 ， 然 后 根据 4 值 的 选择 标准 ， 判 断 出 合 
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理 的 4 值 . 由 于 折 现 图 中 涉及 LASSO 回归 模型 的 系数 计算 ,因此 需要 介绍 skleam 子 模块 linear_model 
中 的 Lasso 类 ， 有 关 该 “类 ”的 语法 和 参数 含义 如 下 : 


Lasso(alpha=1.0, fit intercept=True, normalize=False, precompute=False, copy X=True, 





max_iter=1000, tol=0.0001, warm start=False, positive=False, random state=None, 


selection='cyclic') 


为 了 比较 岭 回 归 模型 与 LASSO 回归 模型 的 拟 合 效果 ， 将 继续 使 用 糖尿 病 数据 集 绘制 4 值 与 [ 


alpha: 用 于 指定 lambda 值 的 参数 ， 默 认 该 参数 为 1 。 

fit_intercept: bool 类 型 参数 ， 是 否 需要 拟 合 截 距 项 ， 默 认为 True。 

normalize: bool 类 型 参数 ， 建 模 时 是 否 需要 对 数据 集 做 标准 化 处 理 ， 默 认为 False。 
precompute: bool 类 型 参数 , 是 否 在 建 模 前 通过 计算 Gram 具 阵 提升 运算 速度 ,默认 为 False。 
copy_X: bool 类 型 参数 ， 是 否 复 制 自 变 量 X 的 数值 ， 默 认为 True。 

max_iter: 用 于 指定 模型 的 最 大 迁 代 次 数 ， 默 认为 1000。 

tol: 用 于 指定 模型 收敛 的 阅 值 ， 默 认为 0.0001。 

warm_start: bool 类 型 参数 ， 是 否 将 前 一 次 的 训练 结果 用 作 后 一 次 的 训练 ， 默 认为 False。 
positive: bool 类 型 参数 ， 是 否 将 回归 系数 强制 为 正 数 ， 默 认为 False。 

random_state: 用 于 指定 随机 数 生成 器 的 种 子 。 

selection: 指定 每 次 过 代 时 所 选择 的 回归 系数 ， 如 果 为 'random'"， 表 示 每 次 迭代 中 将 随机 更 新 
回归 系数 ; 如 果 为 'cyclic'， 则 表示 每 次 只 代 时 回归 系数 的 更 新 都 基于 上 一 次 运算 。 

















归 系 数 的 折线 图 ， 代 码 如 下 : 
# 导入 第 三 方 模块 中 的 函数 


from sklearn.linear model import Lasso,LassoCV 


# 构造 空 列表 ， 用 于 存储 模型 的 偏 回 归 系 数 
lasso cofficients = [] 
for Lambda in Lambdas: 


lasso = Lasso (alpha = Lambda, normalize=True, max iter=10000) 
lasso.fit(X train, y 七 rain) 
lasso cofficients.append (lasso.coef ) 


# 绘制 Lambda 与 回归 系数 的 折线 图 
plt.plot (Lambdas, lasso cofficients) 
# 对 x 轴 做 对 数 变换 

Plt.xscale('l0g') 

# 设置 折线 图 x 轴 和 Y 轴 标 签 

Pplt.xlabel ('Lambda') 

plt.ylabel ('Cofficients') 

# 显示 图 形 

plt.show() 


见 图 8-6。 
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Cofficients 


105 10* 103 107 10 10 10! 0 


图 8.6 正则 项 系数 与 回归 系数 之 间 的 关系 





如 图 8-6 所 示 , 初始 迭代 的 4 值 落 在 10” 至 10? 之 问 ， 然 后 根据 不 同 的 4 值 绘制 出 有 关 回归 系数 
的 折线 图 ,图 中 的 每 条 折线 同样 指 代 了 不 同 的 变量 。 与 岭 回 归 模型 绘制 的 折线 图 类 似 ， 出 现 了 喇 只 


形 折线 ， 说 明 该 变量 存在 多 重 共 线性 。 从 图 8-6 可 知 ， 当 4 值 落 在 0.05 附近 时 ， 绝 大 多 数 变量 的 回 








归 系 数 趋 于 稳定 ， 所 以 ， 基 本 可 以 锁定 合理 的 4 值 范围 ， 接 下 来 需要 通过 定量 的 交叉 验证 方法 获得 
准确 的 4 值 。 


8.4.2 ”交叉 验证 法 确定 4 值 


读者 如 果 需 要 实现 LASSO 回归 模型 的 交叉 验证 ，Python 的 sklearn 模块 提供 了 现成 的 接口 ， 
只 需 调 用 子 模块 linear_model 中 的 LassoCV 类 。 有 关 该 “类 ”的 语法 和 参数 说 明 可 见 下 方 : 


LassoCV (eps=0.001, n alphas=100, alphas=None, fit intercept=True, normalize=False, 


Precompute='auto', max iter=1000, tol=0.0001, copy X=True, cv=None, verbose=False, 
n_jobs=1, positive=False, random state=None, selection='cyclic') 
eps: 指定 正则 化 路 径 长 度 ， 默 认为 0.001， 指 代 Lambda 的 最 小 值 与 最 大 值 之 商 。 
n_alphas: 指定 正则 项 系数 Lambda 的 个 数 ， 默 认为 100 个 。 
alphas: 指定 具体 的 Lambda 值 列表 用 于 模型 的 运算 。 
fit_intercept: bool 类 型 参数 ， 是 否 需要 拟 合 截 距 项 ， 默 认为 True。 
normalize: bool 类 型 参数 ， 建 模 时 是 否 需要 对 数据 集 做 标准 化 处 理 ， 默 认为 False。 
precompute: bool 类 型 参数 , 是 否 在 建 模 前 ,通过 计算 Gram 矩阵 提升 运算 速度 ,默认 为 False。 
max_iter: 指定 模型 最 大 的 迭代 次 数 ， 默 认为 1000 次 。 
tol: 用 于 指定 模型 收敛 的 阅 值 ， 默 认为 0.001。 
copy_X: bool 类 型 参数 ， 是 否 复制 自 变量 X 的 数值 ， 默 认为 True。 
cv: 指定 交叉 验证 的 重 数 。 
Verbose: bool 类 型 参数 ， 是 否 返回 模型 运行 的 详细 信息 ， 默 认为 False。 
n_jobs: 指定 交叉 验证 过 程 中 使 用 的 CPU 数量 ， 即 是 否 需要 并 行 处 理 ， 默 认为 1 表示 不 并 行 
运行 ， 如 果 为 -1， 表 示 将 所 有 的 CPU 用 于 交叉 验证 的 运算 。 
positive: bool 类 型 参数 ， 是 否 将 回归 系数 强制 为 正 数 ， 默 认为 False。 


®@ Iandom state: 用 于 指定 随机 数 生 成 器 的 种 子 。 
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selection: 指定 每 次 迭代 时 所 选择 的 回归 系数 ， 如 果 为 'random'"， 表 示 每 次 迭代 中 将 随机 更 新 
回归 系数 ; 如 果 为 'cyclic"， 则 表示 每 次 送 代 时 回归 系数 的 更 新 都 基于 上 一 次 运算 。 


接 下 来 ， 运 用 上 面 介绍 的 LassoCV 类 ， 采 用 10 重 交 义 验 证 的 方法 ， 得 到 最 佳 的 值 ， 具 体 代 
码 如 下 : 

# LASSO 回归 模型 的 交叉 验证 

lasso cv = LassoCV (alphas = Lambdas, normalize=True, cv = 10, max iter=10000) 

lasso cv.fit(X train, y train) 

# 输出 最 佳 的 lambda 值 

lasso best alpha = lasso_cv.alpha 

lasso best alpha 


out: 
0.062949889902218878 


如 上 结果 所 示 ， 通 过 帮 代 105 至 10? 之 间 的 4 值 ， 并 结合 10 重 交 叉 验证 法 ， 最 终 得 到 合理 的 入 
值 为 0.0629， 与 可 视 化 方法 确定 的 4 值 范围 基本 保持 一 致 。 接 下 来 ， 需 要 基于 这 个 最 佳 的 和 值 重新 
构建 LASSO 回归 模型 。 





8.4.3 ”模型 的 预测 


当 确定 最 佳 的 X 值 后 , 可 以 借助 于 Lasso 类 重新 构建 LASSO 回归 模型 , 具体 的 建 模 代码 如 下 : 
# 基于 最 佳 的 lambda 值 建 模 


lasso = Lasso(alpha = lasso best alpha, normalize=True, max iter=10000) 
# 对 “类 ”加 以 数据 实体 ， 执 行 回归 系数 的 运算 
lasso.fit(X train, y train) 
# 返回 LASSO 回归 的 系数 
pd.Series(index = ['Intercept'] + X train.columns.tolist()v 
data = [lasso.intercept ] + lasso.coef .tolist()) 





out: 

Intercept -280.130832 
BMI 6.199077 

3 0.865640 

S1 -0.135059 

S2 -0.000000 

S3 -0.485755 

S4 0.000000 

S5 44.816615 

S6 0.330531 


如 上 结果 所 示 ， 返 回 的 是 LASSO 回归 模型 的 系数 。 值 得 注意 的 是 ， 系 数 中 含有 两 个 0， 分别 
对 应 $2 变量 和 54 变 量 ， 说 明 这 两 个 变量 对 糖尿 病 指数 Y 没 有 显著 意义 ， 故 可 以 将 LASSO 回归 模型 
表达 为 : 

















Y = 一 280.13 + 6.20BMI + 0.87BP — 0.14S1 — 0.4953 + 44.82S5 + 0.33S6 
接 下 来 ， 基 于 如 上 所 得 的 模型 ， 对 测试 集中 的 数据 进行 预测 ， 同 时 计算 出 用 于 评估 模型 好 坏 
的 均 方 根 误差 RMSE， 代 码 如 下 : 
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# 模型 的 预测 

lasso predict = lasso.predict(X test) 

# 预测 效果 验证 

RMSE = np.sqrt (mean squared error(y test,lasso predict)) 
RMSE 


out: 
53.048714552744023 


如 上 结果 所 示 ，LASSO 回归 模型 在 测试 集 上 得 到 的 RMSE 值 为 53.049， 相 比 于 岭 回 归 模 型 








RMSE 值 , 大 约 下 降 0.8。 得 到 的 结论 是 : 在 降低 模型 复杂 度 的 情况 下 (模型 中 删除 了 S2 变 量 和 34 变 


量 ) ， 进 一 步 提升 了 模型 的 拟 合 效果 。 所 以 ， 在 绝 大 多 数 情况 下 ，LASSO 回归 得 到 的 系数 比 岭 
归 模 型 更 加 可 靠 和 易于 理解 。 





的 








E 








为 了 对 比 多 元 线性 回归 模型 和 上 岭 回 归 模 型 、LASSO 回归 模型 在 糖尿 病 数 据 集 上 的 拟 合 效果 ， 











运用 第 7 章 所 学 的 知识 ， 构 建 多 元 线性 回归 模型 ， 具 体 代码 如 下 : 
# 导入 第 三 方 模块 


from statsmodels import api as sms 


# 为 自 变量 x 添加 常数 列 1， 用 于 拟 合 截 距 项 
X_train2 = sms.add constant (X 上 train) 
X_test2 = sms.add_constant(X_test) 


# 构建 多 元 线性 回归 模型 
linear = sms.formula.OLS(y train, X train2).fit() 
# 返回 线性 回归 模型 的 系数 


linear.params 


out 

const -406.699716 
BMI 6.217649 

BP 0.948245 

S1 -1.264772 

S2 0.901368 

S3 0.962373 

S4 6.694215 

S5 71.614661 

S6 0.376004 


如 上 结果 所 示 , 得 到 了 多 元 线性 回归 模型 的 变量 系数 。 需要 注意 的 是 , 构建 模型 使 用 的 是 OLS 
类 ， 该 类 在 建 模 时 不 拟 合 截 距 项 ,为 了 得 到 回归 模型 的 截 距 项 ， 需 要 在 训练 集 和 测试 集 的 自 变量 矩 








阵 中 添加 常数 列 1。 最 终 ， 根 据 如 上 所 得 的 回归 系数 ， 将 多 元 线性 回归 模型 表示 成 如 下 公式 : 
Y = —406.70 + 6.22BMI + 0.95BP — 1.26S1 + 0.9052 + 0.9653 
十 6.69S4 十 71.61S5 + 0.38S6 


进一步 ， 将 多 元 线性 回归 模型 应 用 在 测试 集中 ， 得 到 糖尿 病 指 数 的 预测 值 ， 然 后 根据 测试 中 


的 实际 值 和 预测 值 计 算 RMSE 值 ， 具 体 代码 如 下 : 
# 模型 的 预测 


linear predict = linear.predict (X_test2) 
# 预测 效果 验证 


RMSE = np.sqrt (mean_squared error(y test,linear predict)) 
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RMSE 


out: 
53.426239397229871 


如 上 结果 所 示 ， 在 对 模型 结果 不 做 任何 假设 检验 以 及 拟 合 诊断 的 情况 下 ， 线 性 回归 模型 的 拟 
合 效果 在 三 个 模型 中 是 最 差 的 ， 因 为 对 应 的 RMSE 值 最 大 。 当 然 ， 也 可 以 按照 第 7 章 的 逻辑 重新 
对 糖尿 病 数 据 集 构建 多 元 线性 回归 建 模 ， 并 结合 模型 的 拟 合 效 果 ， 也 许 会 得 出 不 一 样 的 结论 。 

之 所 以 将 三 者 做 对 比 ,不 仅仅 是 让 读者 明白 它们 之 间 的 差异 ， 更 重要 的 是 对 于 不 满足 X'X 可 道 
的 数据 集 ， 读 者 可 以 有 更 多 的 模型 选择 余地 ， 进 而 避免 线性 回归 模型 出 现 死胡同 的 情况 。 








8.5 ”本章 小 结 





本 章 重点 介绍 了 有 关 线 性 回归 模型 的 两 个 扩展 模型 ， 分 别 是 岭 回 归 与 LASSO 回归 ， 内 容 包含 
两 种 模型 的 参数 求解 、 目 标 函 数 几何 意义 的 理解 以 及 基于 糖尿 病 数据 集 的 应 用 实战 。 当 自 变 量 问 存 
在 多 重 共 线 性 或 数据 集中 自 变量 个 数 多 于 观测 数 时 ， 会 导致 矩阵 X'X 不 可 道 ， 进 而 无 法 通过 最 小 二 
乘法 得 到 多 元 线性 回归 模型 的 系数 解 , 而 本 章 介绍 的 岭 回归 与 LASSO 回归 就 是 为 了 解决 这 类 问题 。 
相 比 于 岭 回归 模型 来 说 ，LASSO 回归 可 以 非常 方便 地 实现 自 变量 的 筛选 ， 但 付出 的 代价 是 增加 了 
模型 运算 的 复杂 度 。 

为 了 使 读者 掌握 岭 回 归 与 LASSO 回归 相关 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 
读者 查阅 和 记忆 : 

Python 模块 Python 函数 或 方法 函数 说 明 























Ridge 用 于 设 定 岭 回归 模型 的 “类 ” 

RidgeCV 用 于 设 定 岭 回归 交叉 验证 的 “类 ” 

Lasso 用 于 设 定 LASSO 回归 模型 的 “类 ” 

LassoCV 用 于 设 定 LASSO 回归 交叉 验证 的 “类 ?” 
sklearn fit 基于 “类 ”的 模型 拟 合 “ 方 法 ” 

alpha_ 用 于 返回 岭 回归 与 LASSO 回归 的 自 变 量 系数 

predict 基于 模型 的 预测 “方法 ” 





计算 均 方 误差 MSE 的 函数 ， 如 需 计 算 RMSE， 还 需 对 其 开 根 号 


mean squared_error 








statsmodels add constant 用 于 给 数组 添加 常数 列 1 的 函数 
OLS 用 于 设 定 多 元 线性 回归 模型 的 “类 ” 














Logistic 回归 分 类 模型 


在 实际 的 数据 挖掘 中 ， 站 在 预测 类 问题 的 角度 来 看 ， 除 了 需要 预测 连续 型 的 因 变量 ， 还 需要 
预 判 离散 型 的 因 变 量 。 对 于 连续 型 变量 的 预测 ， 例 如 ， 如 何 根据 产品 的 市 场 价格 、 广 告 力度 、 销 售 
渠道 等 因素 预测 利润 的 高 低 、 基 于 患者 的 各 种 身体 指标 预测 其 病症 的 发 展 趋势 、 如 何 根 据 广告 的 内 
容 、 摆 放 的 位 置 、 图 片 尺寸 的 大 小 、 投 放 时 间 等 因素 预测 其 被 单 击 的 概率 等 ， 类 似 这样 的 问题 基本 
上 可 以 借助 于 第 7 章 和 第 8 章 所 介绍 的 多 元 线性 回归 模型 , 岭 回 归 模 型 或 LASSO 回 归 模型 来 解决 ; 
而 对 于 离散 型 变量 的 判别 , 例如 ， 某 件 商品 在 接 下 来 的 1 个 月 内 是 否 被 销售 、 根 据 人 体内 的 某 个 肿 
瘤 特 征 ， 判 断 其 是 否 为 恶性 肿瘤 、 如 何 依据 用 户 的 信用 卡 信息 认定 其 是 否 为 优质 客户 等 ， 对 于 这 类 
问题 又 该 如 何 解 决 呢 ? 

本 章 将 介绍 另 一 种 回归 模型 ， 它 与 线性 回归 模型 存在 着 千 丝 万 缕 的 关系 ， 但 与 之 相 比 ， 它 属 
于 非 线性 模型 ， 专 门 用 来 解决 二 分 类 的 离散 问题 。 正 如 上 文 所 说 ， 商 品 是 否 被 销售 、 肿 瘤 是 否 为 恶 
性 、 客 户 是 否 具有 优质 性 等 都 属于 二 分 类 问题 ， 而 这 些 问 题 都 可 以 通过 Logistic 回归 模型 解决 。 

Logistic 回归 模型 目前 是 最 受 工业 界 所 青睐 的 模型 之 一 , 例如 电 商 企业 利用 该 模型 判断 用 户 是 
否 会 选择 某 种 支付 方式 、 金融 企业 通过 该 模型 将 用 户 划分 为 不 同 的 信用 等 级 、 旅游 类 企业 则 运用 该 
模型 完成 酒店 客户 的 流失 概率 预测 。 该 模型 的 一 个 最 大 特色 ， 就 是 相对 于 其 他 很 多 分 类 算法 〈 如 
SVM、 神 经 网 络 、 随 机 森林 等 ) 来 说 ， 具 有 很 强 的 可 解释 性 。 接 下 来 ， 将 通过 本 章 详细 介绍 有 关 
Logistic 回归 模型 的 来 龙 去 脉 ， 读 者 将 会 掌握 如 下 几 方 面 内 容 : 

如 何 构建 Logistic 回归 模型 以 及 求解 参数 ; 
Logistic 回归 模型 的 参数 解释 ; 

模型 效果 的 评估 都 有 哪些 常用 方法 ; 

如 何 基 于 该 模型 完成 实战 项 目 。 
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9.1 ”Logistic 模型 的 构建 


正如 前 文 所 说 ，Logistic 回归 是 一 种 非 线性 的 回归 模型 ， 但 它 又 和 线性 回归 模型 有 关 ， 所 以 其 
属于 广义 的 线性 回归 分 析 模 型 。 可 以 借助 该 模型 实现 两 大 用 途 ， 一 个 是 寻找 “和 危险” 因素， 例如 ， 
医学 界 通常 使 用 模型 中 的 优势 比 寻找 影响 某 种 疾病 的 “ 坏 ” 因 素 ; 另 一 个 用 途 是 判别 新 样本 所 属 的 
类 别 ， 例 如 根据 手机 设备 的 记录 数据 判断 用 户 是 处 于 行走 状态 还 是 跑步 状态 。 

首先 要 回答 的 是 , 为 什么 Logistic 回归 模型 与 线性 回归 模型 有 关 , 为 了 使 读者 能 够 理解 这 个 问 
题 的 答案 ， 需 要 结合 图 9-1 来 说 明 。 











图 9-1 类 别 型 因 变量 与 线性 拟 合 线 


如 图 9-1 所 示 ， 假 设 x 轴 表示 的 是 肿瘤 体积 的 大 小 ; y 轴 表示 肿瘤 是 否 为 恶性 ， 其 中 0 表示 良 
性 ，1 表示 恶性 ， 垂 直 和 水 平 的 虚线 均 属 于 参考 线 ， 其 中 水 平 参考 线 设置 在 y-0.5 处 。 很 明显 ， 这 
是 一 个 二 分 类 问题 ， 如 果 使 用 线性 回归 模型 预测 肿瘤 状态 的 话 ， 得 到 的 不 会 是 0,1 两 种 值 ， 而 是 实 
数 范围 内 的 某 个 值 .如 果 以 0.5 作为 判别 标准 , 左 图 呈现 的 回归 模型 对 肿瘤 的 划分 还 是 比较 合理 的 ， 
因为 当 肿瘤 体积 小 于 xz 时， 都 能 够 将 良性 肿瘤 判断 出 来 , 反之 亦 然 ; 再 来 看 右 图 , 当 恶 性 肿瘤 在 x 轴 
上 相对 分 散 时 ， 得 到 的 线性 回归 模型 如 图 中 所 示 ， 最 终 导致 的 后 果 就 是 误 判 的 出 现 ， 当 肿瘤 体积 小 
于 xz 时 ， 会 有 两 个 恶性 肿瘤 被 误 判 为 良性 肿瘤 。 

所 以 ,直接 使 用 线性 回归 模型 对 离散 型 的 因 变 量 建 模 ， 容 易 导 致 错误 的 结果 。 按 照 图 9-1 的 原 
理 , 线 性 回归 模型 的 预测 值 越 大 (如 果 以 0.5 作为 阔 值 ) ， 则 肿瘤 被 判 为 恶性 的 可 能 性 就 越 大 ， 反 
之 亦 然 。 如 果 对 线性 回归 模型 做 某 种 变换 ， 能 够 使 预测 值 被 “压缩 ”在 0~1 之 间 ， 那 么 这 个 范围 
就 可 以 理解 为 恶性 肿瘤 的 概率 。 所 以 ， 预 测 值 越 大 ， 转 换 后 的 概率 值 就 越 接近 于 1， 从 而 得 到 肿瘤 
为 恶性 的 概率 也 就 越 大 , 反之 亦 然 。 对 Logistic 回归 模型 熟悉 的 读者 一 定 知道 这 个 变换 函数 , 不 错 ， 
它 就 是 Logit 函数 ， 该 函数 的 表达 式 为 : 

gC&)= Ice 

其 中 ，z € (一 oo,+oo)。 很 明显 ， 当 z 趋 于 正 无 穷 大 时 ，e- 将 趋 于 0， 进 而 导致 g(z) 允 近 于 1; 
相反 ， 当 z 趋 于 负 无 穷 大 时 ，e-? 会 趋 于 正 无 穷 大 ， 最 终 导致 g(Z) 逼 近 于 1; 当 z=0 时 ，e-?=1， 所 
以 得 到 g(z)=0.5， 通 过 如 图 9-2 所 示 也 能 够 说 明 这 个 结论 。 
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9-2 Logit 函数 的 可 视 化 
如 果 将 Logit 函数 中 的 z 参 数 换 成 多 元 线性 回归 模型 的 形式 , 则 关于 线性 回归 的 Logit 函数 可 以 
表达 为 : 
假定 : z = po + Bixi + Box2 +…+ Bpxp 
则 ，9(2) = TF oo rprrpp) — he(X) 
上 式 中 的 hgp(X) 也 被 称 为 Logistic 回归 模型 , 它 是 将 线性 回归 模型 的 预测 值 经 过 非 线 性 的 Logit 
函数 转换 为 [0,1] 之 间 的 概率 值 。 假 定 ， 在 已 知 X* 和 B 的 情况 下 ， 因 变量 取 1 和 0 的 条 件 概率 分 别 用 
hg(X) 和 1-hg(X) 表 示 ， 则 这 个 条 件 概率 可 以 表示 为 : 
POy = 1|X;B) = hg(X) =p 
Ply = 0|X;p)=1—hg(X) =1—p 
接 下 来 ， 可 以 利用 这 两 个 条 件 概率 将 Logistic 回归 模型 还 原 成 线性 回归 模型 ， 具 体 推导 如 下 : 
p hg(X) 


1-p 1- hp00) 
( 1+e-(BotBix1tB2x2+…+Bpxp, | 
机 





1 
1 + e-(BotBix1+B2x2+"…+Bpxp) 
1 


e-(BotBix1+B2x2+.…+Bpxp) 
= eBot+Bixi1+PB2x2+…+Bpxp 
公式 中 的 p/(1 一 p) 通 常 称 为 优势 (odds) 或 发 生 比 ,代表 了 某 个 事件 发 生 与 不 发 生 的 概率 比值 ， 
它 的 范围 落 在 (0, +0%) 之 间 。 如 果 对 发 生 比 p/(1 一 p) 取 对 数 ， 则 如 上 公式 可 以 表示 为 : 
1og 6 ) = l0g(eBo+tBix1tBaxat+tBpxp) 
=Ppo+PBixit+P2axz +*…+PBpxp 
是 不 是 很 神奇 完全 可 以 将 Logistic 回归 模型 转换 为 线性 回归 模型 的 形式 , 但 问题 是 ， 因 变量 
不 再 是 实际 的 y 值 ， 而 是 与 概率 相关 的 对 数值 。 所 以 ， 无 法 使 用 我 们 在 第 7 章 所 介绍 的 方法 求解 未 
知 参数 P， 而 是 采用 极 大 似 然 估计 法 ， 接 下 来 将 重点 介绍 有 关 Logistic 回归 模型 的 参数 求解 问题 。 
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9.1.1 Logistic 模型 的 参数 求解 


重新 回顾 上 一 节 所 介绍 的 事件 发 生 概 率 与 不 发 生 概率 的 公式 ， 可 以 将 这 两 个 公式 重 写 为 一 个 
公式 ， 具 体 如 下 : 





POIX;P) = hg x (1— kg)) 

其 实 如 上 的 概率 值 就 是 关于 MG 的 函数 ， 即 事件 发 生 的 概率 函数 。 可 以 简单 描述 一 下 这 个 函 
数 ， 当 某 个 事件 发 生 时 《如 因 变 量 y 用 1 表示 ) ， 则 上 式 的 结果 为 hg(X)， 反 之 结果 为 1 一 hg(X)， 
正好 与 两 个 公式 所 表示 的 概率 完全 一 到 

1. 极 大 似 然 估计 

为 了 求解 公式 中 的 未 知 参 数 8， 就 需要 构建 一 个 目标 函数 ， 这 个 函数 就 是 似 然 函数 。 似 然 函数 
的 统计 背景 是 ， 如 果 数 据 集中 的 每 个 样本 都 是 互相 独立 的 ， 则 n 个 样本 发 生 的 联合 概率 就 是 各 样本 
事件 发 生 的 概率 乘积 ， 故 似 然 函 数 可 以 表示 为 ， 

L(B) = PC 
二 [I P(yOlzG;p) 
i=1 


Le J 
= [I hg xo)” x (1 守 hg(x®0)) 人 


i=1 
其 中 ， 上 标 i 表 示 第 i 个 样本 。 接 下 来 要 做 的 就 是 求解 使 目标 函数 达到 最 大 的 未 知 参数 8， 而 上 
文 提 到 的 极 大 似 然 估计 法 就 是 实现 这 个 目标 的 方法 。 为 了 方便 起 见 ， 将 似 然 函 数 L(B) 做 对 数 处 理 : 


1(B) = log(L(B)) = log (I ix] 有 (1 -weojj”) 


i=1 


于 yu (wo)® x 人 一 weo)) >” 
= 和 (ouos (ha(x®)) +(1—yD)log (1 ta(x®))) 


i=1 
如 上 公式 为 对 数 似 然 函 数 , 如 想得到 目标 函数 的 最 大 值 , 通常 使 用 的 套路 是 对 目标 函数 求 导 ， 
进一步 令 导 函 数 为 0， 进 而 可 以 计算 出 目标 函数 中 的 未 知 参数 。 接 下 来 ， 尝 试 这 个 套路 ， 计 算 目 标 
函数 的 最 优 解 。 
步骤 一 : 知识 铺垫 


和 
1 = 一 一 一 
已 知 ， pr rom 
dhp(X Xe™ 1 1 
以 ， 一 人 -7p) 
所 以 op (1+e-xp)2z 1+e-*xB 1 1+e-zp 到 


= hp) (1— hg(X))X 
步骤 二 : 目标 函数 求 导 
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at) _ 省 ahg(x®) 
6 2 em = TG) op 


-> (om Ey- 临 三 yO) TR ) hg(x®©) (1 hg(x®©))x® 
= > (9 (= ip(xo))- (t= yO)kg(x®)) (x®) 
i 3 hg(x®)) (x®) 


步骤 三 : es 0 


3 (y° 二 hmp(xo)) (xzO)=0 


i=1 
很 显然 ， 通过 上 面 的 公式 无 法 得 到 未 知 参 数 B 的 解 ， 因 为 它 不 是 关于 B 的 多 元 一 次 方程 组 。 所 
只 能 使 用 达 代 方法 来 确定 参数 B 的 值 ， 办 代 过 程 会 使 用 到 经 典 的 梯度 下 降 算法 。 
2. 梯度 下 降 
由 于 对 似 然 函数 求 的 是 最 大 值 ， 因 此 直接 用 梯度 下 降 方法 不 合适 ， 因 为 梯度 下 降 专 门 用 于 解 
决 最 小 值 问题 。 为 了 能 够 适用 梯度 下 降 方法 ， 需 要 在 目标 函数 的 基础 之 上 乘 以 -1， 即 新 的 目标 函数 
可 以 表示 为 : 
pS 1(B) = -1(B) 
= 一 六 (etog (na(x®)) +(1— yD)log (1 一 mco))) 
i=1 
既然 无 法 利用 导 函 数 直接 求 得 未 知 参 数 B 的 解 ， 那 就 结合 迭代 的 方法 ， 对 每 一 个 未 知 参数 记 做 
梯度 下 降 ， 通 过 梯度 下 降 法 可 以 得 到 pj 的 更 新 过 程 ， 即 
va) 
Bj;:=Bj— “op 0 = 1,2,...7) 
其 中 , a 为 学 习 率 , 也 称 为 参数 Bj 变化 的 步 长 , 通常 步 长 可 以 取 0.1,0.05,0.01 等 。 如 果 设 置 的 ge 过 
小 ， 会 导致 Bj 变化 微小 ， 需 要 经 过 多 次 迭代 ， 收 敛 速度 过 慢 ， 但 如 果 设 置 的 gq 过 大 ， 就 很 难得 到 理 
想 的 Bj 值 ， 进 而 导致 目标 函数 可 能 是 局 部 最 小 。 
根据 前 文 对 目标 函数 的 求 导 过 程 ， 可 以 沿用 至 对 分 量 pj; 的 求 导 , 故 目标 函数 对 分 量 Bj 偏 导数 可 


以 表示 成 : ， 
-0 -we) (8) 
其 中 ， x 久 表示 第 /个 变量 在 第 ;个 样本 上 的 观测 值 ， 所 以 利用 梯度 下 降 的 迭代 过 程 可 以 进一步 
表示 为 : 
pp= YD-p = 六 = -Yl Co) -yo) (x8) 
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9.1.2 Logistic 模型 的 参数 解释 


对 于 线性 回归 模型 而 言 ， 参 数 的 解释 还 是 比较 容易 理解 的 ， 例 如 以 产品 成 本 、 广 告 成 本 和 利 
润 构建 的 多 元 线性 回归 模型 为 例 ， 在 其 他 条 件 不 变 的 情况 下 ,广告 成 本 每 提升 一 个 单位 , 利润 将 上 
升 或 下 降 几 个 单位 便 是 广告 成 本 系数 的 解释 。 对 于 Logistic 回归 模型 来 说 , 似乎 就 不 能 这 样 解释 了 ， 
因为 它 是 由 线性 回归 模型 的 Logit 变换 而 来 ， 那 应 该 如 何 解释 Logistic 回归 模型 的 参数 含义 呢 ? 

在 上 一 节 曾 提 过 发 生 比 的 概念 ， 即 某 事件 发 生 的 概率 p 与 不 发 生 的 概率 (1 一 p) 之 间 的 比值 , 它 
是 一 个 以 e 为 底 的 指数 ， 并 不 能 直接 解释 参数 B 的 含义 。 发 生 比 的 作用 只 能 解释 为 在 同一 组 中 事件 
发 生 与 不 发 生 的 倍数 。 例 如 ， 对 于 男性 组 来 说 ， 患 癌症 的 概率 是 不 患 癌症 的 几 倍 ， 所 以 并 不 能 说 明 
性 别 这 个 变量 对 患 癌症 事件 的 影响 有 多 大 。 但 是 使 用 发 生 比 率 ， 就 可 以 解释 参数 B 的 含义 了 ， 即 发 
生 比 之 比 。 

假设 影响 是 否 患 癌 的 因素 有 性 别 和 肿瘤 两 个 变量 ， 通 过 建 模 可 以 得 到 对 应 的 系数 和 p2， 则 
Logistic 回归 模型 可 以 按照 事件 发 生 比 的 形式 改写 为 : 


odds = p = eBotBiGender+B2Volum 
1-p 











总 epo x eBPiGender x eB2Volum 


分 别 以 性 别 变量 和 肿瘤 体积 变量 为 例 ， 解 释 系 数 B1 和 Bs 的 含义 。 假 设 性 别 中 男 用 1 表示 ， 女 
用 0 表示 ， 则 : 
odds1 _ eBo x eB1x1 x eB2Volum 
oddso eBo x eBix0 x eBaVolm 
所 以 , 性 别 变量 的 发 生 比 率 为 e81， 表示 男性 患 癌 的 发 生 比 约 为 女性 患 癌 发 生 比 的 ei 倍 ， 这 是 
对 离散 型 自 变量 系数 的 解释 。 如 果 是 连续 型 的 自 变量 ,也 是 用 类 似 的 方法 解释 参数 含义 , 假设 肿瘤 
体积 为 Volumo， 当 肿瘤 体积 增加 1 个 单位 时 ， 体 积 为 Volumo 二 1， 则 : 


epo X eBiGender x eB2(Volumot+1) 


= ep 





Oddsyommo+1 _ 
Oddsyommo eBo x eBiGender x eB2Volumo 


所 以 ， 在 其 他 变量 不 变 的 情况 下 ， 肿 瘤 体 积 每 增加 一 个 单位 ， 将 会 使 患 癌 发 生 比 变化 epz 倍 ， 
这 个 倍数 是 相对 于 原来 的 Volumo 而 言 的 。 

当 Bk 为 正 数 时 ，e* 将 大 于 1， 表 示 xx 每 增加 一 个 单位 时 ， 发 生 比 会 相应 增加 ; 当 5x 为 负数 时 ， 
e* 将 小 于 1， 说 明 x 每 增加 一 个 单位 时 ， 发 生 比 会 相应 减 小 ， 当 Bk 为 0 时 ，e* 将 等 于 1， 表 明 无 论 
xXx 如 何 变化 ， 都 无 法 使 发 生 比 发 生变 化 。 


= ep 





9.2 分 类 模型 的 评估 方法 


9.1.1 节 介绍 了 如 何 利用 梯度 下 降 法 求解 Logistic 回归 模型 的 未 知 参数 8， 当 模型 参数 得 到 后 ， 
就 可 以 用 来 对 新 样本 的 预测 , 但 预测 效果 的 好 坏 该 如 何 评估 是 一 个 值得 研究 的 问题 。 第 8 章 中 涉及 
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线性 回归 模型 的 评估 指标 ， 即 RMSE, 但 它 只 能 用 于 连续 型 的 因 变 量 评估 。 对 于 离散 型 的 因 变 量 有 
哪些 好 的 评估 方法 呢 ? 本 节 的 重点 就 是 回答 这 个 问题 ， 介 绍 有 关 混 消 和 矩阵 、ROC 曲线 、K-S 曲线 
等 评估 方法 。 


8.2 


混淆 和 矩 阵 





假设 以 肿瘤 为 例 ,对 于 实际 的 数据 集会 存在 两 种 分 类 ， 即 良性 和 恶性 。 如 果 基 于 Logistic 回归 
模型 将 会 预测 出 样本 所 属 的 类 别 ， 这 样 就 会 得 到 两 列 数据 , 一 个 是 真实 的 分 类 序列 ， 男 一 个 是 模型 
预测 的 分 类 序列 。 所 以 ， 可 以 依据 这 两 个 序列 得 到 一 个 汇总 的 列 联 表 ， 该 列 联 表 就 称 为 混淆 矩阵 。 
这 里 构建 一 个 肿瘤 数据 的 混淆 矩阵 ，0 表示 良性 〈 负 例 ) ，1 表示 恶性 〈 正 例 ， 一 般 被 理解 为 研究 
者 所 感 兴趣 或 关心 的 那个 分 类 ) ， 见 表 9-1。 











表 9-1 混淆 矩阵 








实际 值 


恶性 -一 1 
良性 一 0 | A, True Negative B, False Negtive A+B, Predict Negtive 
恶性 一 一 1 | C, False Positive D, True Positive C+D, Predict Positive 
A+C, Acture Negtive B+D ,Acture Positive 














混淆 矩阵 中 的 字母 均 表 示 对 应 组 合 下 的 样本 量 ， 通 过 混淆 矩阵 ， 有 一 些 重要 概念 需要 加 以 说 
明 ， 它 们 分 别 是 : 


A: 表示 正确 预测 负 例 的 样本 个 数 ， 用 TN 表示 。 

B: 表示 预测 为 负 例 但 实际 为 正 例 的 个 数 ， 用 FN 表示 。 

C: 表示 预测 为 正 例 但 实际 为 负 例 的 个 数 ， 用 FP 表示 。 

D: 表示 正确 预测 正 例 的 样本 个 数 ， 用 TP 表示 。 

A+B: 表示 预测 负 例 的 样本 个 数 ， 用 PN 表示 。 

C+D: 表示 预测 正 例 的 样本 个 数 ， 用 PP 表示 。 

A+C: 表示 实际 负 例 的 样本 个 数 ， 用 AN 表示 。 

B+D: 表示 实际 正 例 的 样本 个 数 ， 用 AP 表示 。 

准确 率 : 表示 正确 预测 的 正 负 例 样本 数 与 所 有 样本 数量 的 比值 ， 即 (A+D)/(A+B+C+D)， 该 指 
标 用 来 衡量 模型 对 整体 数据 的 预测 效果 ， 用 Accuracy 表示 。 

正 例 履 盖 率 : 表示 正确 预测 的 正 例 数 在 实际 正 例 数 中 的 比例 ， 即 D/(B+D)， 该 指标 反映 的 是 
模型 能 够 在 多 大 程度 上 覆盖 所 关心 的 类 别 ， 用 Sensitivity 表示 。 

负 例 覆盖 率 : 表示 正确 预测 的 负 例 数 在 实际 负 例 数 中 的 比例 ， 即 A(A+C)， 用 Specificity 表示 。 


二 
@ 正 例 命中 率 : 与 正 例 履 盖 率 比较 相似 ， 表 示 正 确 预测 的 正 例 数 在 预测 正 例 数 中 的 比例 ， 即 


DC+D)， 这 个 指标 在 做 市 场 营销 的 时 候 非常 有 用 ， 例 如 对 预测 的 目标 人 群 做 活动 ， 实 际 响 
应 的 人 数 越 多 ， 说 明 模 型 越 能 够 刻画 出 关心 的 类 别 ， 用 Precision 表示 。 


如 果 使 用 混淆 矩阵 评估 模型 的 好 坏 ， 一 般 会 选择 准确 率 指标 Accuracy、 正 例 覆 盖 率 指标 
Sensitivity 和 负 例 覆盖 率 Specificity 指标 。 这 三 个 指标 越 高 ， 说 明 模型 越 理 想 。 
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混淆 矩阵 的 构造 可 以 通过 Pandas 模块 中 的 crosstab 函数 实现 ， 也 可 以 借助 于 sklearn 子 模块 
metrics 中 的 confusion_ matrix 函数 完成 。 


9.2.2 ROC 曲线 


ROC 曲线 则 是 通过 可 视 化 的 方法 实现 模型 好 坏 的 评估 , 它 使 用 两 个 指标 值 进行 绘制 , 其 中 x 轴 
为 1-Specificity， 即 负 例 错 判 率 ; y 轴 为 Sensitivity， 即 正 例 覆盖 率 。 在 绘制 ROC 曲线 过 程 中 ， 会 
考虑 不 同 的 阔 值 下 Sensitivity 与 1-Specificity 之 间 的 组 合 变化 ,为 了 更 好 地 理解 ROC 曲线 的 绘制 过 
旦 ， 这 里 虚拟 一 个 数据 表格 ， 见 表 9-2。 


表 9-2 ”模拟 绘制 ROC 曲线 的 数据 
































ID Score 
1 0.93 
2 0.87 
0.86 
4 0.84 
3 0.77 
6 0.77 
4 0.75 
8 0.61 
9 0.61 
10 0.57 
11 0.55 
12 0.51 
13 0.46 
14 0.39 
村 0.37 
16 0.33 
17 0.27 
18 0.26 
19 0.23 
20 0.11 
如 表 9-2 所 示 ，ID 列表 示 样 本 的 序号 ;Class 列表 示 样 本 实际 的 分 类 ，P 表示 正 例 ，N 表示 负 
例 ; Score 列表 示 模 型 得 分 ， 即 通过 Logistic 模型 计算 正 例 的 概率 值 。 将 原始 数据 按照 Score 列 降 
序 后 得 到 右 表 的 结果 ， 对 于 Logistic 模型 来 说 ， 通 常会 选择 Score 为 0.5 作为 判断 类 别 的 阔 值 ， 若 


Score 大 于 0.5， 则 判断 样本 为 正 例 ， 否 则 为 负 例 。 但 是 在 对 模型 做 评估 时 ， 通 常会 选择 不 同 的 Score， 
计算 对 应 的 Sensitivity 和 Specificity， 进 而 得 到 ROC 曲线 。 下 面 将 尝试 几 个 不 同 的 Score 值 作为 演练 。 

(1) 如 果 Score 大 于 0.85， 则 将 样本 预测 为 正 例 ， 反 之 样本 归属 于 负 例 ， 根 据 数据 所 示 ， 实 
际 的 10 个 正 例 中 , 满足 条 件 的 只 有 3 个 样本 (2、7、10 号 样本 ), 所 以 得 到 的 正 例 覆 盖 率 Sensitivity 
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为 03; 实际 的 10 个 负 例 中 ， 得 分 均 小 于 0.85， 说 明 负 例 的 覆盖 率 为 1， 则 1-Specificity 为 0。 最 
终 得 到 的 组 合 点 为 〈0.85.0.3.0) 。 

(2) 如 果 Score 大 于 0.65， 则 将 样本 预测 为 正 例 ， 反 之 样本 归属 于 负 例 ， 根 据 数据 所 示 ， 实 
际 的 10 个 正 例 中 ， 满 足 条 件 的 有 5 个 样本 (5、6、2、7、10 号 样本 ) ， 所 以 得 到 的 正 例 覆 盖 率 
Sensitivity 为 0.5; 实际 的 10 个 负 例 中 ， 有 8 个 样本 得 分 小 于 0.85 (除了 15 与 18 号 ) ， 说 明 负 例 
的 覆盖 率 为 0.8， 则 1-Specificity 为 0.2。 最 终 得 到 的 组 合 点 为 〈0.65,0.5.0.2) 。 

(3) 如 果 Score 大 于 0.5， 则 将 样本 预测 为 正 例 ， 反 之 样本 归属 于 负 例 ， 根 据 数据 所 示 ， 实 际 
的 10 个 正 例 中 ， 满 足 条 件 的 有 8 个 样本 (除了 3、9 号 样本 ) ， 所 以 得 到 的 正 例 覆 盖 率 Sensitivity 
为 0.8; 实际 的 10 个 负 例 中 ， 有 6 个 样本 (13、14、16、17、19、20) 得 分 小 于 0.5， 说 明 负 例 的 
覆盖 率 为 0.6， 则 1-Specificity 为 0.4。 最 终 得 到 的 组 合 点 为 (0.5,0.8,0.4) 。 

(4) 如 果 Score 大 于 0.35， 则 将 样本 预测 为 正 例 ， 反 之 样本 归属 于 负 例 ， 根 据 数 据 所 示 ， 实 
际 的 10 个 正 例 中 , 满足 条 件 的 有 8 个 样本 (除了 3、9 号 样本 )， 所 以 得 到 的 正 例 覆 盖 率 Sensitivity 
为 0.8; 实际 的 10 个 负 例 中 ， 只 有 3 个 样本 (13、14、20) 得 分 小 于 0.35， 说 明 负 例 的 覆盖 率 为 
0.3， 则 1-Specificity 为 0.7。 最 终 得 到 的 组 合 点 为 (0.35,0.8,0.7) 。 

虽然 上 面 的 内 容 比较 虽 唆 ， 但 相信 读者 一 定 明白 ROC 曲线 中 x 轴 和 y 轴 的 值 是 如 何 得 到 的 了 ， 
最 终 可 以 利用 上 面 测试 的 几 个 Score 阔 值 ， 得 到 如 图 9-3 所 示 的 ROC 曲线 。 








02 04 o6 08 
Specificity 


图 9-3 ROC 曲线 的 示意 图 


图 9-3 中 的 红色 线 为 参考 线 , 即 在 不 使 用 模型 的 情况 下 ，Sensitivity 和 1-Specificity 之 比 恒 等 
于 1。 通 常 绘制 ROC 曲线 ， 不 仅仅 是 得 到 上 方 的 图 形 ， 更 重要 的 是 计算 折线 下 的 面积 ， 即 图 中 的 
阴影 部 分 ， 这 个 面积 称 为 AUC。 在 做 模型 评估 时 ， 希望 AUC 的 值 越 大越 好 , 通常 情况 下 , 当 AUC 
在 0.8 以 上 时 ， 模 型 就 基本 可 以 接受 了 。 

所 幸 的 是 , sklearn 模块 提供 了 计算 Sensitivity 和 1-Specificity 的 函数 , 函数 名 称 为 roc_curve， 
该 函数 分 布 于 子 模块 metrics 中 。 





9.2.3 K-S 曲线 


K-S 曲线 是 另 一 种 评估 模型 的 可 视 化 方法 ， 与 ROC 曲线 的 画 法 非常 相似 ， 具 体 步 又 如 下 : 
”按照 模型 计算 的 Score 值 ， 从 大 到 小 排序 。 
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@ 取出 10%、20%、...、90% 所 对 应 的 分 位 数 ， 并 以 此 作为 Score 的 阅 值 ， 计 算 Sensitivity 和 
1-Specificity 的 值 。 

@ 将 10%、20%、...、90% 这 样 的 分 位 点 用 作 绘 图 的 x 轴 ， 将 Sensitivity 和 1-Specificity 两 个 指 
标 值 用 作 绘 图 的 y 轴 ， 进 而 得 到 两 条 曲线 。 


很 不 幸 ，Python 中 并 没有 直接 提供 绘制 K-S 曲线 的 函数 ， 这 里 不 妨 按照 上 方 的 步 又， 自 编 给 
制 K-S 曲线 的 函数 ， 代 码 如 下 : 


# 自 定义 绘制 ks 曲线 的 函数 
def plot ks(y test, y_score, positive flag): 
# 对 y_test,y_score 重新 设置 索引 
y_test.index = np.arange (len(y test)) 
# 构建 目标 数据 集 
target data = pd.DataFrame({'y test':y test, 'y_score':y_score}) 
# 按 y_score 降序 排列 
target data.sort values(by = 'y_score', ascending = False, inplace = True) 
# 自 定义 分 位 点 
cuts = np.arange (0.1,1,0.1) 
# 计算 各 分 位 点 对 应 的 Score 值 
index = len(data.y_score)*cuts 
scores = data.y score.iloc[index.astype('int')] 
# 根据 不 同 的 Score 值 ， 计 算 Sensitivity 和 Specificity 
Sensitivity = [] 
Specificity = [] 
for score in scores: 
# 正 例 覆 盖 样本 数量 与 实际 正 例 样本 量 
positive recall = target data.loc[(target data.y test == positive flag) & 
(target data.y_score>score),:] .shape[0] 
positive = sum(target data.y test == positive flag) 
# 负 例 覆盖 样本 数量 与 实际 负 例 样本 量 
negative recall = target data.loc[(target data.y test != positive flag) & 
(target data.y_score<=score),:].shape[0] 
negative = sum(target data.y test != positive flag) 
Sensitivity.append (positive_ recall/positive) 
Specificity.append (negative recall/negative) 
# 构建 绘图 数据 
plot data = 
pd.DataFrame({'cuts':cuts,'yl':1-np.array (Specificity),'y2':np.array (Sensitivity), 
'ks' :np.array (Sensitivity)- (1-np.array (Specificity))}) 
# 寻找 Sensitivity 和 1-Specificity 之 差 的 最 大 值 索引 
max ks index = np.argmax (plot data.ks) 
plt.plot([0]+cuts.tolist ()+[1], [0]+plot data.yl.tolist()+[1], label = '1-Specificity') 
plt.plot([0]+cuts.tolist ()+[1], [0]+plot data.y2.tolist()+[1], label = 'Sensitivity') 
# 添加 参考 线 
plt.vlines(plot data.cuts[max ks index], ymin = plot data.yl[max ks index], 
ymax = plot_data.y2[max_ks_index], linestyles = '--') 
# 添加 文本 信息 
plt.text(x = plot data.cuts [max ks _index]+0.01, 
y = plot data.yl[max ks index]+plot data.ks[max ks index]/2, 
s = 'KS= %.2f' %plot data.ks[max ks_index]) 
# 显示 图 例 
plt.1legend() 
# 显示 图 形 
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plt.show() 


读者 可 以 先 跳 过 这 个 自 定义 函数 ， 因 为 代码 中 调用 了 关于 Sensitivity 和 1-Specificity 的 第 三 
方 计算 函数 ， 当 读者 读 完 本 章 内 容 后 , 再 回 到 此 处 , 会 对 自 定义 函数 有 更 深 的 理解 。 为 了 使 读者 了 
解 K-S 曲线 的 样子 ， 这 里 不 妨 以 上 面 虚拟 的 数据 表 为 例 ， 绘 制 对 应 的 K-S 曲线 : 

# 导入 虚拟 数据 

virtual data = pd.read excel(r'C:\Users\Administrator\Desktop\virtual data.xlsx') 

# 应 用 自 定义 函数 绘制 k-s 曲线 


plot ks(y test = virtual data.Class, y_score = virtual data.Score,positive flag = 'P') 


见 图 9-4。 





10 ] 一 :1Specificity 
一 sensitivity 














很 难 对 模型 的 好 坏 做 评估 ， 一 般 会 选用 最 大 的 KS 值 作 为 衡量 指标 。KS 的 计算 公式 为 : KS= 
Sensitivity-(1- Specificity)= Sensitivity+ Specificity-1。 对 于 KS 值 而 言 ， 也 是 希望 越 大 越 好 ， 通 常情 
况 下 ， 当 KS 值 大 于 0.4 时 ， 模 型 基本 可 以 接受 。 


9.3 Logistic 回归 模型 的 应 用 


本 节 的 实战 部 分 将 使 用 手机 设备 搜集 的 用 户 运动 数 据 为 例 ， 判 断 用 户 所 处 的 运动 状态 ， 即 步 
行 还 是 跑步 。 该 数据 集 一 共 包含 88 588 条 记录 ,6 个 与 运动 相关 的 自 变量 ， 其 中 三 个 与 运动 的 加 速 
度 有 关 ， 另 三 个 与 运动 方向 有 关 。 接 下 来 将 利用 该 数据 集 构建 Logistic 回归 模型 ， 并 预测 新 样本 所 


9.3.1 ”模型 的 构建 


第 一 步 要 做 的 就 是 运用 Python 构建 Logistic 回归 模型 ， 读 者 可 以 借助 于 skleam 的 子 模块 
linear model， 调 用 LogisticRegression 类 ， 有 关 该 “类 ”的 语法 和 参数 含义 如 下 : 


LogisticRegression (Penalty="'12'，dual=False，tol=0.0001，C=1.0，fit_intercept=Truey 
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intercept scaling=1, class weight=None, random state=None, solver= 
‘liblinear',max iter=100, multi class='ovr', verbose=0, warm start=False, n jobs=1) 
”penalty: 为 Logistic 回归 模型 的 目标 函数 添加 正则 化 惩罚 项 ， 与 线性 回归 模型 类 似 ， 默 认为 
12 正则 。 
@ ”dual: bool 类 型 参数 ， 是 否 求解 对 偶 形 式 ， 默 认为 False， 只 有 当 penalty 参数 为 12'、solver 参 
数 为 iblinear 时 ， 才 可 使 用 对 偶 形式 。 
tol: 用 于 指定 模型 跌倒 收敛 的 阅 值 . 
C: 用 于 指定 惩罚 项 系数 Lambda 的 倒数 ， 值 越 小 ， 正 则 化 项 越 大 。 
fit_intercept: bool 类 型 参数 ， 是 否 拟 合 模型 的 截 距 项 ， 默 认为 True。 
intercept_scaling: 当 solver 参数 为 liblinear 时 该 参数 有 效 ， 主 要 是 为 了 降低 X 矩阵 中 人 为 设 
定 的 常数 列 1 的 影响 。 
@ class_weight: 用 于 指定 因 变量 类 别 的 权重 ,如 果 为 字典 , 则 通过 字典 的 形式 {class_label:weight} 
传递 每 个 类 别 的 权重 ; 如 果 为 字符 串 'balanced'"， 则 每 个 分 类 的 权重 与 实际 样本 中 的 比例 成 反 
比 ， 当 各 分 类 存在 严重 不 平衡 时 ， 设 置 为 balanced' 会 比较 好 ; 如 果 为 None， 则 表示 每 个 分 类 
的 权重 相等 。 
random_state: 用 于 指定 随机 数 生成 器 的 种 子 。 
solver: 用 于 指定 求解 目标 函数 最 优化 的 算法 ， 默 认为 liblinear， 还 有 其 他 选项 ， 如 牛顿 法 
mewton-cg'、L-BFGS 拟 牛 顿 法 'lbfgs'。 
max_iter: 指定 模型 求解 过 程 中 的 最 大 迭代 次 数 ， 默认 为 100。 
multi_class: 如 果 因 变量 不 止 两 个 分 类 ， 可 以 通过 该 参数 指定 多 分 类 问题 的 解决 办 法 ， 默 认 
采用 'ovr， 即 one-vs-rest 方法 ， 还 可 以 指定 'multinomial， 表 示 直 接 使 用 多 分 类 逻辑 回归 模型 
(Softmax 分 类 )。 
Verbose: bool 类 型 参数 ， 是 否 输出 模型 迭代 过 程 的 信息 ， 默 认为 0， 表 示 不 输出 。 
warm_start: bool 类 型 参数 ， 是 否 基于 上 一 次 的 训练 结果 继续 训练 模型 ， 默 认为 False， 表 示 
每 次 迭代 都 是 从 头 开始 。 
@ Dn jobs: 指定 模型 运算 时 使 用 的 CPU 数量 , 默认 为 1， 如 果 为 -1, 表示 使 用 所 有 可 用 的 CPU。 


需要 说 明 的 是 ， 当 fit_intercept 设置 为 True 时 ， 相 当 于 在 X 数据 集 上 人 为 地 添加 了 常数 列 1， 
用 于 计算 模型 的 截 距 项 ; LogisticRegression 类 不 仅仅 可 以 针对 二 元 问题 做 分 类 , 还 可 以 解决 多 元 问 
题 ， 通 过 设置 参数 multi_class 为 "multinomial'， 实 现 Softmax 分 类 ， 并 利用 随机 梯度 下 降 法 求解 参 
数 。 下 面 通过 该 “类 ”对 手机 设备 数据 建 模 ， 代 码 如 下 : 

# 导入 第 三 方 模块 

import pandas as pd 


import numpy as np 
from sklearn import linear model 





# 读 取 数据 

sports = pd.read csv(r'C:\Users\Administrator\Desktop\Run or Walk.csv') 
# 提取 出 所 有 自 变量 名 称 

predictors = sports.columns[4:] 

# 构建 自 变量 矩阵 


X = sports.ix[:,predictors] 
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# 提取 y 变量 值 

y = sports.activity 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 

x train, X test, y train, y test = model selection.train test split(X, y, test size = 0.25, 
random state = 1234) 


# 利用 训练 集 建 模 

sklearn logistic = linear model.LogisticRegression() 
sklearn logistic.fit(X train, y train) 

# 返回 模型 的 各 个 参数 


Print (sklearn logistic.intercept , sklearn logistic.coef ) 


out: 
[ 4.35613952] [[ 0.48533325 6.86221041 -2.44611637 -0.01344578 -0.1607943 0.13360777]] 


首先 简单 描述 一 下 上 方 的 代码 , 当 数 据 读 入 到 Python 内 存 中 时 , 需要 将 数据 集 拆 分 为 两 部 分 ， 
分 别 用 于 建 模 和 测试 , 测试 的 目的 就 是 用 于 评估 模型 拟 合 效果 的 好 坏 。 最 终 得 到 如 上 所 示 的 回归 系 
数 ， 第 一 个 数值 为 模型 的 截 距 项 ， 后 面 的 6 个 数值 分 别 为 各 自 变量 的 系数 值 ， 故 可 以 将 Logistic 加 
归 模型 表示 为 : 


XP = 4.36 + 0.49accelerationx + 6.86accelerationy 一 2.45accelerationz 





























一 0.01gyro_x — 0.16gyro_y + 0.13gyro_z 
“he(0) = TFe-wm 
当 某 些 构建 好 后 ， 需 要 对 模型 的 回归 系数 做 相应 的 解释 ， 故 将 各 变量 对 应 的 优势 比 发生 比 
率 ) 汇总 到 表 9-3 中 。 





表 9-3 各 系数 的 优势 比 


acceleration x | acceleration y | acceleration z [am ay | ares | 


TI IT 
以 acceleration x 变量 为 例 ， 在 其 他 因素 不 变 的 情况 下 ，x 轴 方 向 的 加 速度 每 增加 一 个 单位 ， 
会 使 跑步 发 生 比 变化 1.62 倍 。 从 系数 的 大 小 来 看 , x 轴 与 y 轴 上 的 加 速度 是 导致 跑步 状态 的 重要 因 
素 ，z 轴 上 的 运动 方向 是 判定 跑步 状态 的 重要 因素 。 





9.3.2 ”模型 的 预测 


基于 上 方 的 模型 ， 利 用 测试 集 上 的 X 数 据 ， 预 测 因 变量 y。 预 测 功 能 的 实现 需要 借助 于 predict 
“方法 ”， 代 码 如 下 : 

# 模型 预测 

sklearn_ predict = sklearn logistic.predict(X_test) 


# 预测 结果 统计 


pad.Series(sklearn predict) .value counts() 
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如 上 结果 所 示 ， 得 到 测试 上 因 变 量 的 预测 统计 ， 其 中 判断 步行 状态 的 样本 有 12 121 个 ， 跑 步 
状态 的 样本 有 10 026 个 。 单 看 这 两 个 数据 ， 无 法 确定 模型 预测 的 是 否 准确 ， 所 以 需要 对 模型 预测 
效果 做 定量 的 评估 。 


9.3.3 ”模型 的 评估 


在 9.2 节 ， 我 们 介绍 了 分 类 模型 的 常用 评估 方法 ， 如 混淆 矩阵 、ROC 曲线 和 K-S 曲线 ， 下 面 
我 们 尝试 利用 这 三 种 方法 来 判断 模型 的 拟 合 效果 ， 代 码 如 下 : 
# 导入 第 三 方 模块 


from sklearn import metrics 


# 混淆 矩阵 
cm = metrics.confusion matrix(y test, sklearn predict, labels = [0,1]) 
cm 


out: 
array ([[9971, 1120], 
[2150, 8906]], dtype=int64) 


如 上 结果 所 示 ， 返 回 一 个 2X2 的 数组 ， 该 数组 就 是 简单 的 混淆 和 矩阵。 算 阵 中 的 行 表示 实际 的 
运动 状态 ， 列 表示 模型 预测 的 运动 状态 。 进 而 基于 该 矩阵 计算 模型 预测 的 准确 率 Accuracy、 正 例 
覆盖 率 Sensitivity 和 负 例 覆盖 率 Specificity， 计 算 过 程 如 下 : 


Accuracy = metrics.scorer.accuracy scorel(ly test, sklearn predict) 

Sensitivity = metrics.scorer.recall score(y test, sklearn predict) 

Specificity = metrics.scorer.recall score(y test, sklearn predict, pos_ label=0) 
print (' 模 型 准确 率 为 $.2f%%:' $(Accuracy*100)) 

print (' 正 例 覆 盖 率 为 %.2f%%' %(Sensitivity*100)) 

print (' 负 例 覆 盖 率 为 %.2f%%' %(Specificity*100)) 





out: 

模型 准确 率 为 85.24%: 
正 例 获 盖 率 为 80. 55% 
负 例 覆盖 率 为 89. 90% 


如 上 结果 所 示 ， 模 型 的 整体 预测 准确 率 达到 85.24%， 而 且 正 确 预 测 到 正 例 在 实际 正 例 中 占 比 
超过 80%， 正 确 预测 到 的 负 例 在 实际 负 例 中 更 是 接近 90%， 相 对 而 言 模型 更 好 地 拟 合 了 负 例 的 特 
征 。 总 体 来 说 ， 模 型 的 预测 准确 率 还 是 非常 高 的 。 

当然 ， 还 可 以 对 混淆 矩阵 做 可 视 化 展现 ， 这 就 要 用 到 seabom 模块 中 的 heatmap 函数 了 ， 即 给 
制 热 力图 : 

# 导入 第 三 方 模块 


import seaborn as sns 
import matplotlib.pyplot as pit 


# 绘制 热力 图 

sns.heatmap (cm, annot = True, fmt = '.2e',cmap = 'GnBu') 
# 图 形 显示 

Pplt.show() 
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见 图 9-5。 







ll2e+03 


~ 2.15e+03 


图 9-5 混淆 矩阵 的 可 视 化 
如 图 9-5 所 示 ， 将 混淆 矩阵 映射 到 热力 图 中 ， 颜 色 越 深 的 区 块 代表 样 本 量 越 多 。 图 中 非常 醒目 


地 展示 了 主 对 角 线 上 的 区 块 颜色 要 比 其 他 地 方 深 很 多 , 说 明正 确 预测 正 例 和 负 例 的 样本 数目 都 很 大 。 


接 下 来 使 用 可 视 化 的 方法 对 模型 进行 评估 ， 首 先 绘制 最 为 常见 的 ROC 曲线 ， 然 后 将 对 应 的 





AUC 值 体现 在 图 中 ， 具 体 代码 如 下 : 


# 导入 第 三 方 模块 

import matplotlib.pyplot as plt 

# y 得 分 为 模型 预测 正 例 的 概率 

Y_score = sklearn logistic.predict proba(X test)[:,1] 

# 计算 不 同 阅 值 下 ，fpr 和 tpr 的 组 合 值 ， 其 中 fpr 表示 1-Specificity，tpr 表 示 Sensitivity 
fpr, tpr, threshold = metrics.roc curvely test, y_score) 

# 计算 AUc 的 值 


roc auc = metrics.auc (fpr,tpr) 


# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 添加 ROC 曲线 的 轮廓 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 

plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 
# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = %0.2f)' % roc auc) 
# 添加 x 轴 与 Y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

# 显示 图 形 

plt.show() 


如 图 9-6 所 示 ， 绘 制 的 是 模型 在 预测 集 上 的 ROC 曲线 ， 曲 线 下 的 面积 高 达 0.93， 远 远 超过 常 


用 的 评估 标准 0.8。 所 以 ， 可 以 认定 拟 合 的 Logistic 回归 模型 是 非常 合理 的 ， 能 够 较 好 地 刻画 数据 
特征 。 需 要 说 明 的 是 ， 在 利用 子 模块 metrics 中 的 roc_curve 函数 计算 不 同 阔 值 下 Sensitivity 和 
1-Specificity 时 ， 函 数 的 第 二 个 参数 y_score 代表 正 例 的 预测 概率 ， 而 非 实 际 的 预测 值 。 
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接 下 来 ， 再 利用 前 文 介绍 的 自 定义 函数 ， 绘 制 K-S 曲线 ， 进 一 步 论 证 模型 的 拟 合 效果 ， 代 码 
如 下 : 


# 调用 自 定义 函数 ， 绘 制 K-s 曲线 
Pplot_ks(y test = y test, y_score = y_score, positive flag = 1) 


见 图 9-7。 





10| 一 rspecificty 
一 Sensitvity 
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9-7 K-S 曲线 


如 图 9-7 所 示 ， 绘 制 了 模型 对 应 的 K-S 曲线 ， 中 间 的 虚线 表示 ， 在 40% 的 分 位 点 处 ， 计 算得 
到 Sensitivity 和 1-Specificity 之 间 的 最 大 差 为 0.71， 即 KS 值 。 通 常 ，KS 值 大 于 0.4 时 就 可 以 表明 
模型 的 拟 合 效果 是 不 错 的 ， 这 里 得 到 的 结果 为 0.71， 进 一 步 验 证 了 前 面 混淆 矩阵 和 ROC 曲线 得 出 
的 结论 。 

到 目前 为 止 ， 基 本 上 进入 了 本 章 的 尾声 阶段 ， 从 理论 到 建 模 再 到 模型 评估 都 已 经 一 一 跟 读 者 
进行 了 介绍 。 下 面 将 介绍 另 一 种 实现 Logistic 回归 模型 的 Python 工具 ， 即 statsmodels， 这 里 就 不 
详细 介绍 每 一 段 代码 的 含义 了 ， 读 者 可 以 根据 代码 的 注释 吸收 里 面 的 内 容 : 

大 一- 一- 一 一 一 一 -第 一 步 建 模 ------- 一 -一 # 

# 导入 第 三 方 模块 

import statsmodels.api as sm 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 

XxX train, X test, y train, y test = model selection.train test split(X, y, test_ size = 0.25, 
random state = 1234) 
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# 为 训练 集 和 测试 集 的 x 矩阵 添加 常数 列 1 

X train2 = sm.add constant (X train) 

X_test2 = sm.add constant (X_test) 

# 拟 合 Logistic 模型 

sm logistic = sm.formula.Logit (y train，X_train2) .fit() 
# 返回 模型 的 参数 


sm logistic.params 


入 第 二 步 预测 构建 混淆 矩阵 一 ------- 一 -一 -一 一 -一 - # 
# 模型 在 测试 集 上 的 预测 

sm y_ probability = sm logistic.predict (xX test2) 

# 根据 概率 值 ， 将 观测 进行 分 类 ， 以 0.5 作为 阔 值 

sm pred y = np.where(sm y probability >= 0.5, 1, 0) 


# 混淆 矩阵 

cm = metrics.confusion matrix(y test, sm pred y, labels = [0,1]) 

cm 

和 一 -一 -一 -一 -一 -~---- 一 -: 第 三 步 然 制 ROC 曲线 -一 -= 一 -= 一 =- 一 到 


# 计算 真正 率 和 假 正 率 

fpr, tpr,threshold = metrics.roc_curve(y_ test, sm y probability) 
# 计算 auc 的 值 

roc auc = metrics.auc (fpr,tpr) 

# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 

plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 

# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = $0.2f)' % roc auc) 

# 添加 x 轴 与 y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

# 显示 图 形 

plt.show() 


和 第 四 步 绘制 K-s 曲线 ----------------------- # 
# 调用 自 定义 函数 ,绘制 K-s 曲线 

sm y_probability.index = np.arange (len(sm y probability)) 

plot_ks(y test = y test, y_score = sm y probability, positive flag = 1) 


针对 如 上 代码 ， 需 要 说 明 三 点 容易 犯错 的 地 方 : 

”第 一 步 建 模 中 使 用 了 Logit 类 ， 如 果 直 接 把 自 变量 X 带 入 到 模型 ， 将 不 会 拟 合 模型 的 截 距 项 ， 
故 需要 对 X_ train 和 X_test 运 用 add_constant 函数 ， 增 加 常数 为 1 的 列 。 

@ 第 二 步 中 ， 在 对 模型 预测 时 ， 返 回 的 并 不 是 具体 的 菜 个 分 类 ， 而 是 样本 被 预测 为 正 例 的 概率 
值 。 所 以 ， 如 需 得 到 具体 的 样本 分 类 ， 还 需要 对 概率 值 做 切 分 ， 即 大 于 等 于 0.5 则 为 正 例 ， 
否则 为 负 例 。 

”在 第 四 步 的 绘制 K-S 曲线 中 ， 对 预测 概率 值 sm_y_probability 做 了 重 索 引 ， 主 要 是 因为 自 定 
义 函 数 中 要 求 y_test 参数 值 与 y_ score 参数 值 具有 相同 的 行 索引 。 
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9.4 ”本章 小 结 


本 章 首 次 介绍 了 有 关 分 类 数据 的 预测 模型 一 一 Logistic 回归 ， 并 详细 讲述 了 相关 的 理论 知识 与 
应 用 实战 ， 内 容 包含 模型 的 构建 、 参 数 求解 的 推导 、 回 归 系 数 的 解释 、 模 型 的 预测 以 及 几 种 常用 的 
模型 评估 方法 。 通 过 本 章 内 容 的 学 习 ， 读 者 掌握 了 有 关 Logistic 回归 模型 的 来 龙 去 脉 ,进而 可 以 将 
该 模型 应 用 到 实际 的 工作 中 。 

为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 。 











Python 模块 Python 函数 或 方法 函数 说 明 
train_test_split 将 数据 集 拆 分 为 训练 集 和 测试 集 的 函数 
LogisticRegression 构造 Logistic 回归 模型 的 “类 ” 
fit 基于 “类 ”的 模型 拟 合 “方法 ” 
intercept_, coef_ 返回 模型 的 截 距 项 和 回归 系数 
predict 基于 模型 的 预测 “方法 ” 
sklearn value_counts 序列 值 的 频数 统计 “方法 ” 
confusion_matrix 构建 混淆 矩阵 的 函数 
accuracy Score 计算 准确 率 的 函数 
Tecall score 计算 正 例 或 负 例 覆 盖 率 的 函数 
predict proba 基于 模型 预测 各 类 别 的 概率 “方法 ” 
roc_curve 计算 Sensitivity 和 1-Specificity 的 函数 
auc 计算 AUC 的 函数 
statsmodels add_constant 为 X 和 矩阵 添加 常数 列 1 的 函数 
Logit 构造 Logistic 回归 模型 的 “类 ” 
seaborn heatmap 将 混淆 矩阵 绘制 成 热力 图 的 函数 
matplotlib stackplot 绘制 堆 又 图 的 函数 
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决策 树 与 随机 森林 


决策 树 属于 经 典 的 十 大 数据 挖掘 算法 之 一 ， 是 一 种 类 似 于 流程 图 的 树 结构 ， 其 规则 就 是 
IF..THEN.… 的 思想 ， 可 以 用 于 数值 型 因 变 量 的 预测 和 离散 型 因 变 量 的 分 类 。 该 算法 简单 直观 、 通 
俗 易 懂 , 不 需要 研究 者 掌握 任何 领域 知识 或 复杂 的 数学 推理 ,而 且 算法 的 结果 输出 具有 很 强 的 解释 
性 。 通 常情 况 下 , 将 决策 树 用 作 分 类 器 会 有 很 好 的 预测 目前 越 来 越 多 的 行业 将 该 算法 用 于 
实际 问题 的 解决 ， 如 医学 上 的 病情 诊断 、 金 融 领 域 的 风险 评估 、 销 售 领 域 的 营销 响应 、 工 业 产品 的 
合格 检验 等 。 

以 某 产 品 的 销售 为 例 ， 善 于 数据 观察 的 销售 员 发 现 一 个 非常 有 意思 的 规律 : 从 客户 的 年 龄 角 
度 来 看 ， 该 产品 最 受 中 年 人 青睐 ， 只 要 他 们 感 兴趣 ， 几 乎 都 会 选择 购买 。 对 于 老年 人 来 说 ， 需 要 进 
一 步 结合 其 信用 状况 ,奇怪 的 是 ， 信 用 优秀 的 人 反倒 不 会 去 购买 该 产品 。 对 于 青年 人 群 来 说 ， 还 需 
考虑 对 应 的 收入 状况 和 所 属 身份 ,假如 其 收入 水 平 比较 高 , 则 不 会 选择 购买 ; 相反 收入 水 平 较 低 时 ， 
会 选择 购买 产品 ， 同 样 ， 中 等 收入 的 学 生来 说 ， 他 们 也 会 选择 购买 产品 。 如 果 将 表 10-1 中 的 记录 
数据 转换 为 IF.THEN.… 的 树 结构 ， 就 可 以 很 好 地 表达 发 现 的 规律 〈 见 图 10-1) 。 


















表 10-1 消费 者 是 否 购买 的 信息 表 






































并 | 各 | 鸣 | 癌 | 癌 | 河 | 劲 | 劲 | 台 | 呐 
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性 。 通 常情 况 下 , 将 决策 树 用 作 分 类 器 会 有 很 好 的 预测 目前 越 来 越 多 的 行业 将 该 算法 用 于 
实际 问题 的 解决 ， 如 医学 上 的 病情 诊断 、 金 融 领 域 的 风险 评估 、 销 售 领 域 的 营销 响应 、 工 业 产品 的 
合格 检验 等 。 

以 某 产 品 的 销售 为 例 ， 善 于 数据 观察 的 销售 员 发 现 一 个 非常 有 意思 的 规律 : 从 客户 的 年 龄 角 
度 来 看 ， 该 产品 最 受 中 年 人 青睐 ， 只 要 他 们 感 兴趣 ， 几 乎 都 会 选择 购买 。 对 于 老年 人 来 说 ， 需 要 进 
一 步 结合 其 信用 状况 ,奇怪 的 是 ， 信 用 优秀 的 人 反倒 不 会 去 购买 该 产品 。 对 于 青年 人 群 来 说 ， 还 需 
考虑 对 应 的 收入 状况 和 所 属 身份 ,假如 其 收入 水 平 比较 高 , 则 不 会 选择 购买 ; 相反 收入 水 平 较 低 时 ， 
会 选择 购买 产品 ， 同 样 ， 中 等 收入 的 学 生来 说 ， 他 们 也 会 选择 购买 产品 。 如 果 将 表 10-1 中 的 记录 
数据 转换 为 IF.THEN.… 的 树 结构 ， 就 可 以 很 好 地 表达 发 现 的 规律 〈 见 图 10-1) 。 


















表 10-1 消费 者 是 否 购买 的 信息 表 






































并 | 各 | 鸣 | 癌 | 癌 | 河 | 劲 | 劲 | 台 | 呐 
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( 续 表 ) 


[Age |income |su [cr [ew | 
青年 中 是 优秀 购买 
老年 中 否 优秀 不 够 买 

















图 10-1 由 表 10-1 绘制 的 决策 树 


图 10-1 所 示 就 是 一 棵 典型 的 决策 树 ， 其 呈现 自 项 向 下 的 生长 过 程 ， 通 过 树 结构 可 以 将 数据 中 
隐藏 的 规律 直观 地 表现 出 来 。 图 中 深 色 的 椭圆 表示 树 的 根 节点 ; 浅 色 的 椭圆 表示 树 的 中 间 节 点 ; 方 
框 则 表示 树 的 叶 节点 。 对 于 所 有 的 非 叶 节点 来 说 ， 都 是 用 来 表示 条 件 判断 ， 而 叶 节点 则 存储 最 终 的 
分 类 结果 ， 例 如 中 年 分 支 下 的 叶 节 点 (4,0) 表示 4 位 客户 购买 ，0 位 客户 不 购买 ， 同 理 ， 其 他 叶 节 
点 中 的 数字 分 别 表示 购买 客户 数 和 不 购买 客户 数 。 

接 下 来 ， 本 章 将 详细 介绍 有 关 决 策 树 的 知识 点 ， 读 者 在 学 完 本 章 后 ， 将 掌握 如 下 几 方面 的 内 容 : 
节点 字段 的 选择 ; 
决策 树 的 剪 枝 技术 ; 
随机 森林 的 实现 思想 ; 
决策 树 与 随机 森林 的 应 用 实战 。 


10.1 ”节点 字段 的 选择 


对 于 图 10-1 中 的 决策 树 来 说 ,读者 可 能 会 有 疑问 , 根 节点 为 什么 选择 年 龄 字段 作为 判断 条 件 ， 
而 不 是 选择 其 他 字段 呢 ? 同 理 , 其 他 中 间 节 点 的 选择 是 否 都 是 以 理论 依据 作为 支撑 。 本 节 的 重点 就 
是 介绍 根 节点 或 中 间 节 点 的 字段 选择 , 设想 一 下 ,如 果 选 择 合理 的 话 , 决策 树 的 分 类 效果 将 非常 好 ， 
即 叶 节点 中 的 输出 会 比较 “纯净 ”。 

如 图 10-1 中 的 决策 树 所 示 ， 在 根 节 点 内 有 5 个 客户 不 够 买 产品 ，9 个 客户 购买 产品 ， 这 两 类 
人 和 群 混杂 在 一 起 ， 显 得 不 够 “纯净 ”。 但 通过 树 的 不 断 生长 ， 每 一 个 叶 节 点 中 都 仅 包含 购买 或 不 够 
买 产品 的 客户 数 ， 以 信用 良好 的 老年 人 为 例 ， 有 3 个 客户 选择 购买 ，0 个 客户 选择 不 够 买 ， 不 存在 
混杂 的 现象 ， 所 以 该 叶 节点 就 是 完全 “纯净 ”的 。 

按照 上 面 的 思想 ， 就 是 在 各 个 非 叶 节点 中 找到 合理 的 字段 ， 使 得 其 子孙 节点 的 “纯净 ” 度 尽 
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可 能 高 。 那 问题 来 了 ，“ 纯 净 ” 度 该 如 何 度量 ? 接 下 来 就 介绍 有 关 “ 纯 净 ” 度 的 衡量 指标 ， 即 信息 
增益 、 信 息 增益 率 和 基尼 指数 ， 


10.1.1 信息 增益 


介绍 信息 增益 之 前 ， 需 要 简单 描述 一 下 有 关 灼 概念 。 炉 原本 是 物理 学 中 的 一 个 定义 ， 后 来 
香农 将 其 引申 到 了 信息 论 领域 ， 用 来 表示 信息 量 的 大 小 。 信 息 量 越 大 〈 分 类 越 不 “纯净 ”) ， 对 应 
的 箭 值 就 越 大 ， 反 之 亦 然 。 这 里 举 一 个 形象 的 例子 ， 也 许 能 够 帮助 读者 理解 信息 量 大 小 与 箭 的 大 小 
关系 ， 对 比 某 公司 部 门 经 理 的 两 句 话 : “今年 我 们 部 门 有 一 个 名 额 可 以 出 国 访问 ”和 “今年 我 们 部 
门 可 以 出 国 访问 ”。 对 于 第 一 句 话 来 说 ， 员 工 之 问 就 开始 推测 谁 可 能 会 出 国 ， 想 象 空间 比较 多 ， 因 
为 每 个 员工 都 有 出 国 的 机 会 ， 对 应 的 信息 量 也 会 显得 非常 大 ， 引 申 到 米 上 ， 其 值 就 会 很 大 ;而 对 于 
第 二 句 话 来 说 ， 大 家 就 不 会 讨论 谁 去 的 问题 ， 因 为 这 件 事 是 板 上 钉 钉 的 ， 没 有 其 他 可 能 性 ， 故 对 应 
的 信息 量 就 会 很 低 ， 粒 值 也 会 很 低 。 那 箭 值 如 何 计算 呢 ? 有 关 信 息 箭 的 计算 公式 如 下 : 





K 
H(p1,p2,** Pk) = -> Pklogz pk 
和 1 

对 于 某 个 事件 而 言 ， 它 有 K 个 可 能 值 ，pk 表 示 第 k 个 可 能 值 的 发 生 概率 ， 所 以 ， 信 息 烂 反 映 的 
是 某 个 事件 所 有 可 能 值 的 烂 和 。 在 实际 应 用 中 , 会 将 概率 px 的 值 用 经 验 概率 蔡 换 ,所 以 经 验 信息 人 
可 以 表示 为 : 
Sel lou ICxl 
pr oT 


其 中 , |D| 表 示 事件 中 的 所 有 样本 点 ， a 所 以 商 值 中 表 


Ipl 
示 第 k 个 可 能 值 出 现 的 频率 。 
以 产品 是 否 被 购买 为 例 ， 该 数据 集 一 共 包 含 14 个 样本 ， 其 中 购买 的 用 户 有 9 个 ， 没 有 购买 的 
用 户 有 5 个， We op 


H(D)= 


5 
H(Buy) = 一 1og: 一 T= = 0.940 


ye 3 
~ 14 14 14 
如 上 计算 的 是 单个 事件 在 不 同 取 值 下 的 粹 ， 如 果 才 要 基于 其 他 事件 计算 某 个 事件 的 粹 ， 就 称 
为 条 件 闹 .需要 注意 的 是 ,条 件 炉 并 不 等 同 于 条 件 概率 ， 它 是 已 知事 件 各 取 值 下 条 件 坑 的 期 望 ， 其 
数学 表达 式 可 以 表示 为 : 
条 件 炳 : HCDIA) = 》 PC4D HCDkl4D 
ik 


= 一》 P(ADP(DrlADl0g2P (DilAi) 
. K 
= 一》》 PCDP(Dul4DLIogzP(Dxl4) 


i=1 k=1 
n 


K 
=—) P(AD 》PUDul4DlogzP(Dul4 
=1 


i=1 
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DPIZI 
其 中 , P(4i) 表 示 4 事件 的 第 ;种 值 对 应 的 概率 ; H(Dk|4) 为 已 知 4i 的 情况 下 ,D 事 件 为 k 值 的 条 
件 米 ， 其 对 应 的 计算 公式 为 P(Dk|4i)10gaPCDe|Ai): 1Di| 表 示 4i 的 频数 ， 蜡 表示 4 在 所 有 样本 中 的 
频率 ，|Dix| 表 示 Ai 下 D 事 件 为 k 值 的 频数 ， 名 表示 所 有 Ai 中 ， 了 事件 为 K 值 的 频率 。 公 式 中 的 符号 
比较 多 ,读者 理解 起 来 可 能 比较 困难 ,下 面 以 销售 数据 为 例 , 计算 各 种 年 龄 值 下 是 否 购买 的 条 件 入 : 


Heat9 = - 羡 (5os 人 (6)+5os 全 ) -去 (41o9 (人 + 全) 
一 二 人 log @ 十 2 log ®) = 0.694 
14\5 5/ 5 5 

从 计算 过 程 就 会 发 现 ， 三 个 插 号 内 的 和 就 是 公式 H(Buyx1Agei)， 分别 表 示 年 龄 A8ge 取 各 种 值 下 
购买 行为 的 条 件 焙 ， 括 号 外 的 乘积 即 为 条 件 焙 的 权重 ， 即 年 龄 Age 取 各 种 值 的 频率 。 同 理 ， 可 以 计 
算 其 他 几 个 自 变量 对 因 变 量 的 条 件 炉 : H(BuylIncome) = 0.911,，H(Buy|Stu) = 0.789 ， 
H(Buyl|Credit) = 0.892 。 

从 图 10-1 中 可 知 ， 对 于 离散 的 因 变 量 Buy 而 言 ， 决 策 树 在 生长 过 程 中 ， 从 根 节点 到 最 后 的 叶 
节点 , 信息 炉 是 下 降 的 过 程 ， 由 根 节点 的 0.94 减 小 到 各 叶 节 点 的 0, 每 一 步 下 降 的 量 就 称 为 信息 增 
益 ， 它 的 计算 公式 可 以 表示 为 : 








Gaina(D) = H(D) — H(DIA) 

由 如 上 公式 可 知 ， 对 于 已 知 的 事件 4 来 说 ， 事 件 D 的 信息 增益 就 是 D 的 信息 粹 与 4 事件 FD 的 条 
件 业 之 差 . 事件 4 对 事件 D 的 影响 越 大 ， 条件 恼 H(D1A) 就 会 越 小 (在 事件 4 的 影响 下 ,事件 D 被 划分 
得 越 “ 纯 净 ”) ， 体 现在 信息 增益 上 就 是 差 值 越 大 ， 进 而 说 明 事 件 D 的 信息 炉 下 降 得 越 多 。 所 以 ， 
在 根 节点 或 中 间 节 点 的 变量 选择 过 程 中 ， 就 是 挑选 出 各 自 变量 下 因 变 量 的 信息 增益 最 大 的 。 

根据 上 面 所 计算 的 各 条 件 烂 的 结果 ， 可 以 按照 信息 增益 的 公式 得 到 各 自 变量 下 因 变 量 的 信息 
增益 值 : 

Gainage(Buy) = H(Buy) — H(Buyl|Age) = 0.940 — 0.694 = 0.246 
Gainmcome(Buy) = H(Buy) — H(Buylincome) = 0.940 — 0.911 = 0.029 
Gainseu(Buy) = H(Buy) — H(Buy|Stu) = 0.940 — 0.789 = 0.151 

Gaincreait (Buy) = H(Buy) — H(BuylCredit) = 0.940 — 0.892 = 0.048 

这 样 就 可 以 回答 为 什么 图 10-1 中 的 决策 树 会 选择 4ge 变 量 作为 根 节点 的 判断 ， 因 为 在 不 同 的 
年 龄 值 下 ， 购 买 行为 的 信息 增益 最 大 ， 为 0.246。 

如 上 都 是 以 离散 的 自 变 量 为 例 ， 如 果 自 变量 为 连续 的 数值 型 ， 那 么 该 如 何 计算 对 应 的 信息 增 
益 呢 ? 同时 , 也 包含 分 割 点 的 选择 问题 , 即 如 果 将 某 个 数值 型 变量 作为 根 节点 或 中 间 节 点 的 判断 条 
件 ， 那 对 应 的 判断 值 应 该 是 多 少 。 对 于 数值 型 自 变量 ， 信 息 增益 的 计算 过 程 如 下 : 

@ ”假设 数值 型 变量 x 含 有 m 个 观测 ， 首 先 对 其 做 升序 或 降序 操作 ， 然 后 计算 相 邻 两 个 数值 之 间 的 

均值 击 = (Xi 十 Xit1)/2， 从 而 可 以 得 到 n 一 1 个 均值 。 

@ ”以 均值 五 作为 判断 值 ， 可 以 将 数据 集 拆 分 为 两 部 分 ,一 部 分 的 样本 量 为 n1， 均 满足 x 三 元 的 条 
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件 ， 另 一 部 分 的 样本 量 为 nz， 均 满足 x < 元 的 条 件 ; 在 各 数据 子 集中 ， 都 包含 因 变 量 不 同 值 
下 的 观测 数 ， 不 妨 假设 在 第 一 部 分 数据 子 集中 两 个 分 类 对 应 的 样本 量 为 cl 和 clz， 在 第 二 部 
分 数据 子 集中 两 个 分 类 对 应 的 样本 量 为 cxz 和 czz， 进 而 可 以 计算 出 该 判断 值 下 对 应 的 信息 增 
益 : Gainz(D) = H(D) — H(DklAs). 

@@ 重复 第 2 步 ， 可 以 得 到 n 一 1 个 均值 下 的 信息 增益 ， 并 从 中 挑选 出 最 大 的 作为 变量 x 对 因 变 量 
的 信息 增益 。 


当 所 有 自 变 量 ( 不管 是 离散 型 还 是 数值 型 》 的 信息 增益 都 计算 出 来 后 ， 选 出 最 大 信息 增益 所 
对 应 的 自 变量 用 作 根 节点 或 中 间 节 点 的 特征 。 如 果 自 变量 为 离散 型 , 则 生长 出 不 同 值 下 的 分 支 (如 
销售 数据 中 的 年 龄 字段 ， 会 生长 出 3 个 分 支 ) ; 如 果 自 变量 为 数值 型 ， 则 生长 出 两 条 分 支 ， 分 支 的 
分 割 点 就 是 对 应 的 最 大 Gainz.(D)。 


10. 作 2 信息 增益 率 


决策 树 中 的 ID3 算法 使 用 信息 增益 指标 实现 根 节点 或 中 间 节 点 的 字段 选择 ， 但 是 该 指标 存在 
一 个 非常 明显 的 缺点 , 即 信息 增益 会 偏向 于 取 值 较 多 的 字段 。 为 了 帮助 读者 理解 信息 增益 指标 的 缺 
点 ， 这 里 举 一 个 极端 的 例子 ， 数 据 见 表 10-2。 


3 


表 10-2 计算 信息 增益 的 特殊 例子 

















City GDP/ 亿 元 Population/ 万 人 Province Audit_Result 
南宁 4.180 广西 未 通过 
呼和浩特 3.179 内 蒙古 未 通过 
包头 3,448 286 内 蒙古 未 通过 
南通 7,750 江苏 未 通过 
太原 3.200 山西 未 通过 
沈阳 5.870 辽宁 未 通过 
南京 11.715 江苏 通过 
合肥 7,191 787 安徽 通过 
大 连 7,363 700 辽宁 通过 
苏州 17,000 1065 江苏 通过 
芜湖 3,100 367 安徽 通过 
杭州 12,556 919 浙江 通过 
济南 7,285 706 山东 通过 











综合 2017 年 各 城市 GDP、2016 年 底 常住 人 口 和 2017 年 10 月 份 国家 发 改 委 公 布 的 城市 轨道 
交通 审核 结果 ， 构 成 如 上 所 示 的 数据 集 ， 其 中 Audit_Result 为 因 变 量 ， 表 示 审 核 是 否 通过 。 如 果 决 
策 树 的 根 节点 字段 从 表 中 的 4 个 自 变量 选择 的 话 ，City 变量 一 定 会 被 选中 ， 因 为 该 变量 有 13 种 不 
同 的 取 值 ， 每 一 种 取 值 下 对 应 的 审核 结果 都 是 “纯净 ”的 ， 所 以 计算 得 到 的 加 权 条 件 炉 为 0， 进 而 
City 变量 下 审核 结果 Audit_Result 的 信息 增益 就 是 最 大 的 ， 而 且 就 是 Audit_Result 信息 粹 本 身 。 但 
是 ， 将 City 变量 作为 根 节点 是 没有 意义 的 ， 因 为 该 变量 不 具有 普 适 性 。 

为 了 克服 信息 增益 指标 的 缺点 ， 有 人 提出 了 信息 增益 率 的 概念 ， 它 的 思想 很 简单 ， 就 是 在 信 
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息 增益 的 基础 上 进行 相应 的 惩罚 。 信 息 增益 率 的 公式 可 以 表示 为 : 
Gaina(D) 

Ha 

其 中 ，H4 为 事件 4 的 信息 粹 。 事件 4 的 取 值 越 多 ，Gainsa(D) 可 能 越 大 ， 但 同时 也 会 越 大 ， 这 
样 以 商 的 形式 就 实现 了 Gaina(D) 的 惩罚 。 以 表 10-2 的 数据 为 例 ， 虽 然 City 变量 的 信息 增益 最 大 ， 
但 对 应 的 H& = -13 x (1/13)log2(1/13) = logz13 也 是 最 大 的 ， 所 以 两 者 相 除 就 会 降低 原来 的 信息 
增益 。 

如 果 以 信息 增益 率 作为 根 节点 或 中 间 节 点 的 字段 选择 标准 ， 对 于 产品 购买 的 数据 集中 而 言 ， 
四 个 自 变量 对 应 的 信息 焙 和 信息 增益 率 分 别 为 : 


PE! ( 冯 - 去 的 2 名 1.577 
Age™ ~ 14 "92\14) 14 92\14)/ 14 92\14)/ 


4 4 6 6 4 4 
Hincome = — T41092 名) —14!092 后 ) -14!092 ( 司 =1.557 


Gain_Ratiosa(D) = 





6 GN 党 8 
Hereait = — T41092 (总 一 五 gz (本 = 0.985 


Gain_Ratioage(B = 

ain_Ratioage(Buy) = 7577= 0 
0.029 

Gain_Ratiomcome(Buy) = 一 -一 一 0.019 


和 557 
。 。 0.151 
Gain_Ratiosu (Buy) = a 0.151 


0.048 
Gain_Ratiocreait(Buy) = 0985= 0.049 


从 上 面 的 计算 结果 可 知 ，Age 变 量 的 信息 增益 率 仍然 是 最 大 的 ， 所 以 在 根 节点 处 仍然 选择 Age 
变量 进行 判断 和 分 支 。 

如 果 用 于 分 类 的 数据 集中 各 离散 型 自 变量 的 取 值 个 数 没有 太 大 差异 ， 那 么 信息 增益 指标 与 信 
息 增益 率 指标 在 选择 变量 过 程 中 并 没有 太 大 的 差异 ,所 以 它们 之 间 没 有 好 坏 之 分 , 只 是 适用 的 数据 
集 不 一 致 。 





10.1.3 ”基尼 指数 


决策 树 中 的 C4.5 算法 使 用 信息 增益 率 指标 实现 根 节 点 或 中 间 节 点 的 字段 选择 ,但 该 算法 与 ID3 
算法 一 致 ， 都 只 能 针对 离散 型 因 变 量 进行 分 类 ， 对 于 连续 型 的 因 变 量 就 显得 束手无策 了 。 为 了 能 够 
让 决策 树 预测 连续 型 的 因 变量 ，Breiman 等 人 在 1984 年 提出 了 CART 算法 ， 该 算法 也 称 为 分 类 
归 树 ， 它 所 使 用 的 字段 选择 指标 是 基尼 指数 。 

基尼 指数 的 计算 公式 可 以 表示 为 : 





I 











K K K 
Gini(pu pz …Pk) = > md 一 pk) = > qu 一 pke2) = 工 一 六 px? 
k=1 k=1 k=1 


其 中 ,px 表示 某 事件 第 k 个 可 能 值 的 发 生 概率 ， 该 概率 可 以 使 用 经 验 概率 表示 ， 所 以 基尼 指数 
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可 以 重 写 为 : 





其 中 , |D| 表 示 事 件 中 的 所 有 样本 点 , |Cx| 表 示 事 件 的 第 K 个 可 能 值 出 现 的 次 数 , 所 以 概率 值 pi 就 
是 多 所 表示 的 频率 。 下 面 以 手工 构造 的 虚拟 数据 为 例 ， 解 释 C4.5 算法 是 如 何 借助 于 基尼 指数 实现 
节点 字段 选择 的 ， 数 据 见 表 10-3。 


表 10-3 计算 基尼 指数 的 样 例 











假设 表 10-3 中 的 Edu 表示 客户 的 受 教育 水 平 ，Credit 为 客户 在 第 三 方 的 信用 记录 ，Loan 为 因 
变量 ， 表 示 银 行 是 否 对 其 发 放贷 款 。 根 据 基尼 指数 的 公式 ， 可 以 计算 Loan 变量 的 基尼 指数 值 ; 
A\2 22 


Gini(Loan)=1— Q 一 Q = 0.444 
在 选择 根 节 点 或 中 间 节 点 的 变量 时 ， 就 需要 计算 条 件 基 尼 指数 ， 条 件 基 尼 指数 仍然 是 某 变量 


各 取 值 下 条 件 基尼 指数 的 期 望 ， 所 不 同 的 是 ,条件 基 尼 指数 采用 的 是 二 分 法 原理 。 对 于 Credit 变量 
来 说 ， 其 包含 两 种 值 ， 可 以 一 分 为 二 ; 但 是 对 于 Edu 变量 来 说 ， 它 有 三 种 不 同 的 值 ， 就 无 法 一 分 
为 二 了 ， 但 可 以 打包 处 理 ， 如 本 科 与 非 本 科 〈 硕 士 和 大 专 为 一 组 ) 、 硕 士 与 非 硕 士 《 本 科 和 大 专 为 
一 组 ) 、 大 专 与 非 大 专 〈 本 科 和 硕士 一 组 ) 。 

对 于 三 个 及 以 上 不 同 值 的 离散 变量 来 说 ， 在 计算 条 件 基尼 指数 时 会 稍微 复杂 一 些 ， 因 为 该 变 
量 在 做 二 元 划分 时 会 产生 多 对 不 同 的 组 合 。 以 表 中 的 Edu 变量 为 例 ， 一 共产 生 三 对 不 同 的 组 合 ， 
所 以 在 计算 条 件 基 尼 指 数 时 就 需要 考虑 三 种 组 合 的 值 ,最 终 从 三 种 值 中 挑选 出 最 小 的 作为 该 变量 的 
二 元 划分 。 条 件 基尼 指数 的 计算 公式 可 以 表示 为 : 


Ginia(D) = 》PCD Gini(DilA) 
x 
= >》 PG) ( ->oo"] 
所 1IplNf“ 志 1lpalz 
_YpflolNf_ ful 
-2"( 勋 ( >(%)) 


k=1 
其 中 ，P(4i) 表 示 4 变量 在 某 个 二 元 划分 下 第 ;组 的 概率 ， 其 对 应 的 经 验 概率 为 | 即 4 变 量 中 
第 i 组 的 样本 量 与 总 样本 量 的 商 ; Gini(Dk|4i) 表 示 在 已 知 分 组 4i; 的 情况 下 ,变量 D 取 第 k 种 值 的 条 件 
基尼 指数 ， 其 中 由 表示 分 组 4 内 变量 D 取 第 K 种 值 的 频率 。 为 了 使 读者 理解 条 件 基尼 指数 的 计算 过 
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程 ， 下 面 分 别 计算 自 变量 Edu 和 Credit 对 因 变量 Loan 的 条 件 基尼 指数 : 


oO- 让 -全 -的 ) -全 
oo- 让 -全 -个 ) 全- 


2 4 


3 
Gmisa xs) = -+21 -( 
名 2 2 要 
comionucasO=E(- 全 -全 ) -全 -全 )=oae 

如 上 结果 所 示 ， 由 于 变量 Edu 含有 三 种 不 同 的 值 ， 故 需要 计算 三 对 不 同 的 条 件 基尼 指数 值 ， 
其 中 本 科 与 非 本 科 的 二 元 划分 对 应 的 条 件 基尼 指数 为 0.444, 硕 士 与 非 硕士 的 条 件 基 尼 指 数 为 0.333， 
大 专 与 非 大 专 的 条 件 基 尼 指 数 为 0.267， 由 于 最 小 值 为 0.267， 故 将 大 专 与 非 大 专 作为 变量 Edu 的 
二 元 划分 ， 而 变量 Credit 只 有 两 种 值 ， 故 只 需 计算 一 次 条 件 基 尼 指 数 即 可 ， 并 且 值 为 0.167。 

与 信息 增益 类 似 ， 还 需要 考虑 自 变量 对 因 变 量 的 影响 程度 ， 即 因 变 量 的 基尼 指数 下 降 速 度 的 
快慢 ， 下 降 得 越 快 ， 自 变量 对 因 变 量 的 影响 就 越 强 。 下 降 速 度 的 快慢 可 用 下 方式 子 衡量 : 

A Gini(D) = Gini(D) — Ginia(D) 

所 以 ，Edu 变量 中 大 专 与 非 大 专 组 的 基尼 指数 下 降 速度 为 0.444 一 0.267 = 0.177; Credit 变量 
的 基尼 指数 下 降 速 度 为 0.444 一 0.167 = 0.277。 根 据 节点 变量 的 选择 原理 ， 会 优先 考虑 Credit 变量 
用 于 根 节点 的 条 件 判断 ， 因 为 相 比 于 Edu 变量 来 说 ， 它 的 基尼 指数 下 降 速度 最 大 。 

假如 数据 集中 包含 数值 型 的 自 变 量 ， 计 算 该 变量 的 条 件 基尼 指数 与 10.1.1 节 中 所 介绍 的 数值 
型 自 变 量 信息 增益 的 计算 步骤 完全 一 致 , 所 不 同 的 只 是 度量 方法 换 成 了 基尼 指数 。 同 样 ， 在 选择 变 
量 的 分 割 点 时 ， 需 要 从 mn 一 1 个 均值 中 挑选 出 使 Gini(D) 下 降 速 度 最 大 的 元 作为 连续 型 变量 的 分 割 点 。 

前 面 介绍 了 三 种 决策 树 节点 变量 的 选择 方法 , 其 中 ID3 和 C4.5 都 属于 多 分 支 的 决策 树 , CART 
则 是 二 分 支 的 决策 树 , 在 树 生 长 完成 后 ,， 最终 根据 叶 节 点 中 的 样本 数据 决定 预测 结果 。 对 于 离散 型 
的 分 类 问题 而 言 ， 叶 节点 中 哪 一 类 样本 量 最 多 ， 则 该 叶 节点 就 代表 了 哪 一 类 ; 对 于 数值 型 的 预测 问 
题 ， 则 将 叶 节点 中 的 样本 均值 作为 该 节点 的 预测 值 。 

Python 中 的 skleam 模块 选择 了 一 个 较 优 的 决策 树 算法 ， 即 CART 算法 ， 它 既 可 以 处 理 离散 型 的 
分 类 问题 〈 分 类 决策 树 ) ， 也 可 解决 连续 型 的 预测 问题 〈 回 归 决 策 树 ) 。 这 两 种 树 分 别 对 应 
DecisionTreeClassifier 类 和 DecisionTreeRegressor 类 , 接 下 来 简单 介绍 一 下 这 两 个 类 的 语法 和 参数 含义 : 


DecisionTreeClassifier (criterion='gini', splitter='best', max depth=None, 
min_samples_split=2, min samples leaf=1, 
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min weight fraction leaf=0.0,max features=None, 
random state=None, max leaf nodes=None, 

min impurity decrease=0.0, min impurity split=None, 
class_weight=None, presort=False) 


DecisionTreeRegressor (criterion='mse', splitter='best', max depth=None, 
min_samples split=2, min samples leaf=1, 
min weight fraction leaf=0.0, max features=None, 
random state=None, max leaf nodes=None, 
min impurity decrease=0.0, min impurity split=None, 
presort=False) 
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criterion: 用 于 指定 选择 节点 字段 的 评价 指标 ， 对 于 分 类 决策 树 ， 默 认为 'gini'， 表 示 采 用 基尼 
指数 选择 节点 的 最 佳 分 割 字段 ; 对 于 回归 决策 树 ， 默 认为 "mse'， 表 示 使 用 均 方 误差 选择 节点 
的 最 佳 分 割 字 段 。 

splitter: 用 于 指定 节点 中 的 分 割 点 选择 方法 ， 默 认为 'best， 表 示 从 所 有 的 分 害 点 中 选择 最 佳 
分 割 点 ; 如 果 指 定 为 Tandom'"， 则 表示 随机 选择 分 割 点 。 

max_depth: 用 于 指定 决策 树 的 最 大 深度 ， 默 认为 None， 表 示 树 的 生长 过 程 中 对 深度 不 做 任 
何 限 制 。 


emin_samples_split: 用 于 指定 根 节点 或 中 间 节 点 能 够 继续 分 割 的 最 小 样本 量 ， 默认 为 2。 
@ min_samples leaf 用 于 指定 叶 节 点 的 最 小 样本 量 ， 默 认为 1。 
® min_weight fraction_leaf: 用 于 指定 叶 节 点 最 小 的 样本 权重 ， 默 认为 None， 表 示 不 考虑 叶 节 


点 的 样本 权 值 。 

max_features: 用 于 指定 决策 树 包含 的 最 多 分 害 字 段 数 ， 默 认为 None， 表 示 分 割 时 使 用 所 有 
的 字段 ， 与 指定 ,auto' 效 果 一 致 ; 如 果 为 具体 的 整数 ， 则 考虑 使 用 对 应 的 分 割 字段 数 ; 如 果 为 
0~1 的 浮 点 数 ， 则 考虑 对 应 百分比 的 字段 个 数 ; 如 果 为 'sqrt， 则 表示 最 多 考虑 VE 个 字段 ; 如 
果 为 og2'， 则 表示 最 多 使 用 loguP 个 字段 。 


®@ ”random _state: 用 于 指定 随机 数 生成 器 的 种 子 , 默认 为 None, 表示 使 用 默认 的 随机 数 生成 器 。 
@ max_leaf nodes: 用 于 指定 最 大 的 叶 节点 个 数 ， 默 认为 None， 表 示 对 叶 节 点 个 数 不 做 任何 限 


制 。 


e min_impurity_decrease: 用 于 指定 节点 是 否 继续 分 割 的 最 小 不 纯度 值 ， 默 认为 0。 
e_ min_ impurity split: 同 参 数 min_impurity_decrease 含义 一 致 ， 该 参数 已 在 0.21 版 本 剔除 。 
@ class_weight: 用 于 指定 因 变 量 中 类 别 之 间 的 权重 ， 默 认为 None， 表 示 每 个 类 别 的 权重 都 相 


等 ; 如 果 为 balanced， 则 表示 类 别 权重 与 原始 样本 中 类 别 的 比例 成 反比 ; 还 可 以 通过 字典 传 
递 类 别 之 间 的 权重 差异 ， 其 形式 为 {class_label:weight}。 

presort: bool 类 型 参数 , 是否 对 数据 进行 预 排 序 , 默认 为 False。 如果 数 据 集 的 样本 量 比 较 小 ， 
设置 为 True 可 以 提高 模型 的 执行 速度 ; 如 果 数 据 集 的 样本 量 比 较 大 ， 则 不 易 设置 为 True。 


不 管 是 ID3、C4.5 还 是 CART 决策 树 ， 在 建 模 过 程 中 都 可 能 存在 过 拟 合 的 情况 ， 即 模型 在 训 


练 集 上 有 很 高 的 预测 精度 , 但 是 在 测试 集 上 效果 却 不 够 理想 。 为 了 解决 过 拟 合 问题 , 通常 会 对 决策 
树 做 剪 枝 处 理 ， 下 一 节 将 介绍 有 关 决 策 树 的 几 种 剪 枝 方法 。 


10.2 决策 树 的 剪 枝 


决策 树 的 剪 枝 通常 有 两 类 方法 ， 一 类 是 预 剪 枝 ， 另 一 类 是 后 剪 枝 。 预 剪 枝 很 好 理解 ， 就 是 在 


树 的 生长 过 程 中 就 对 其 进行 必要 的 剪 枝 , 例如 限制 树 生长 的 最 大 深度 ， 即 决策 树 的 层 数 、 限 制 决策 
树 中 间 节 点 或 叶 节点 中 所 包含 的 最 小 样本 量 以 及 限制 决策 树 生成 的 最 多 叶 节 点 数量 等 ; 后 剪 枝 相 对 
来 说 要 复杂 很 多 , 它 是 指 决策 树 在 得 到 充分 生长 的 前 提 下 再 对 其 返工 修剪 。 常 用 的 剪 枝 方法 有 误差 
降低 剪 枝 法 、 翡 观 剪 枝 法 和 代价 复杂 度 剪 枝 法 等 ， 下 面 将 详细 介绍 这 三 种 后 剪 枝 方法 的 理论 知识 。 
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10.2.1 误差 降低 剪 枝 法 


该 方法 属于 一 种 自 底 向 上 的 后 剪 枝 方法 ， 剪 枝 过 程 中 需要 结合 测试 数据 集 对 决策 树 进行 验证 ， 
如 果 某 个 节点 的 子孙 节点 都 被 剪 去 后 , 新 的 决策 树 在 测试 数据 集 上 的 误差 反而 降低 了 , 则 表明 这 个 
剪 枝 过 程 是 正确 的 ， 否 则 就 不 能 对 其 剪 枝 。 为 了 使 读者 明白 该 方法 的 剪 枝 过 程 ， 以 图 10-2 中 的 决 
策 树 为 例 ， 介 绍 该 剪 枝 法 的 具体 操作 步骤 。 





图 10-2 前 枝 示意 图 


@ 将 决策 树 的 某 个 非 叶 子 节点 作为 剪 枝 的 候选 对 象 (如 图 中 的 xs 处 节点 ) 如 果 将 其 子孙 节点 删 
除 (对 应 的 两 个 叶 节 点 )， 则 xs 处 的 节点 就 变 成 了 叶 节 点 。 

@ ”利用 投票 原则 ， 将 此 处 叶 节点 中 频数 最 高 的 类 别 用 作 分 类 标准 ( 如 图 中 剪 枝 后 该 叶 节 点 属于 
类 A)。 

@ ”利用 剪 枝 后 的 新 树 在 测试 数据 集 上 进行 预测 ,然后 对 比 新 树 与 老 树 在 测试 集 上 的 误 判 样本 量 ， 
如 果 新 树 的 误 判 样本 量 低 于 老 树 的 误 判 样 本 量 ， 则 将 xs 处 的 中 间 节 点 替换 为 叶 节 点 ， 否 则 不 
进行 剪 枝 。 

”重复 前 面 的 三 步 ， 直 到 新 的 决策 树 能 够 最 大 限度 地 提高 测试 数据 集 上 的 预测 准确 率 。 


虽然 该 方法 是 最 简单 的 后 剪 枝 方法 之 一 ， 但 由 于 它 需 要 结合 测试 数据 集 才能 够 实现 剪 枝 ， 因 
此 就 可 能 导致 剪 枝 过 度 的 情况 。 为 了 避免 剪 枝 过 程 中 使 用 测试 数据 集 便 产 生 了 翡 观 剪 枝 法 ， 下 面 介 
绍 该 方法 的 实现 原理 和 过 程 。 


10.2.2 ”悲观 剪 枝 法 


该 方法 的 前 枝 过 程 愉 好 与 误差 降低 剪 枝 法 相反 ， 它 是 自 项 向 下 的 前 枝 过 程 。 虽 然 不 再 使 用 独 
立 的 测试 数据 集 , 但 是 简单 地 将 中 间 节 点 换 成 叶 节点 肯定 会 导致 误 判 率 的 提升 ,为 了 能 够 对 比 前 梳 
前 后 的 叶 节点 误 判 率 ， 必 须 给 叶 节点 的 误 判 个 数 加 上 经 验 性 的 惩罚 系数 0.5。 所以， 前 村 前 后 叶 节 
点 的 误 判 率 可 以 表示 成 : 
e'(T) = (E(T) +0.5)/N 
L L 
[ew = (>ew + o] / nD ") 
i=1 i=1 
其 中 ，e'(m 表 示 前 村 后 中 间 节 点 7 被 换 成 叶 节点 的 误 判 率 ，e'(T5) 表 示 中 间 节 点 7 前 村 前 其 对 
应 的 所 有 时节 点 的 误 判 率 ，E(D) 为 中 间 节 点 7 处 的 误 关 个 数 。 BED) 为 节点 7 下 的 所 有 时 节点 误 判 个 
数 ; 表示 中 间 节 点 7 对 应 的 所 有 叶 节 点 个 数 ，N 表 示 中 间 节 点 7 的 样本 个 数 ，V 表 示 各 叶 节 点 中 的 
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样本 个 数 ， 其 实 Pf Ni-1 = N。 

对 比 剪 枝 前 后 叶 节点 误 判 率 的 标准 就 是 ， 如 果 剪 枝 后 叶 节点 的 误 判 率 期 望 在 剪 枝 前 叶 节点 误 
判 率 期 望 的 一 个 标准 差 内 ， 则 认为 剪 枝 是 合理 的 ， 否 则 不 能 剪 枝 。 可 能 读者 在 理解 这 种 剪 枝 方法 时 
比较 困惑 ， 这 里 举 一 个 例子 加 以 说 明 ， 一 个 剪 枝 示意 图 如 图 10-3 所 示 。 










Tt17.12) 


AER)) 


Tal8,5) 








图 10-3 剪 枝 示意 图 


假设 以 72 节 点 为 例 ， 剪 枝 前 对 应 了 3 个 叶 节点 ， 误 判 个 数 分 别 为 3,2,0; 如 果 将 其 所 有 叶 节 点 
都 剪 掉 ，T2 便 成 为 了 TD 的 叶 节 点 ， 误 判 样本 数 为 7。 按 照 上 方 的 计算 公式 ， 可 以 得 到 : 


= 0 = 0.469 


(3+0.5+2+0.5+0+0.5) 
e'(T) = EC 0.406 


现在 的 问题 是 ， 误 判 率 e'(T4) 的 标准 差 该 如 何 计算 。 由 于 误 判 率 属于 0-1 分 布 ， 即 每 个 节点 中 
只 有 正确 分 类 和 错误 分 类 两 种 情况 ， 因 此 根据 0-1 分 布 的 期 望 (np〉 和 方差 (np(1 一 p)) 公式， 
可 以 得 到 的 e’'(T) 与 e'(74) 的 期 望 及 e'(T) 的 方差 : 
E(e'(T)) = N x e'(T)= 16 x 3 
E(e’'(Tt)) = N x e’'(T) = 6.5 
Var(e’(T)) = N x e’(Te) x (1 —e’(7:)) 
=16x0.406 x (1— 0.406) 
= 3.859 
最 后 ， 根 据 剪 枝 的 判断 标准 E(e'(T)) < E(e'(T4)) + Std(e'(T.))， 可 以 判断 有 节点 是 否 可 以 被 


75 


7.5 < 6.5 十 V3.859 
很 明显 ， 上 面 所 计算 的 不 等 式 是 满足 条 件 的 ， 所 以 可 以 认定 到 节点 是 需要 进行 剪 枝 、 将 其 转 
换 成 叶 节 点 的 。 通 过 上 面 的 举例 ， 相 信 读 者 应 该 理解 悲观 剪 枝 法 的 思路 ， 接 下 来 介绍 一 种 基于 目标 
函数 的 剪 枝 方法 ， 即 代价 复杂 度 剪 枝 法 。 
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10.2.3 ”代价 复杂 度 剪 枝 法 


从 字面 理解 ， 该 剪 枝 方法 涉及 两 则 信息 ， 一 则 是 代价 ， 是 指 将 中 间 节 点 蔡 换 为 叶 节点 后 误 判 
率 会 上 升 ; 另 一 则 是 复杂 度 ， 是 指 剪 枝 后 叶 节 点 的 个 数 减 少 ， 进 而 使 模型 的 复杂 度 下 降 。 为 了 平衡 
上 升 的 误 判 率 与 下 降 的 复杂 度 , 需要 加 入 一 个 系数 a, 故 可 以 将 代价 复杂 度 剪 枝 法 的 目标 函数 写成 : 

Cu(T) = C(T) + a: |Niear| 

其 中 , C(7T) = BhiNi x H(i); i 表示 节点 T 下 第 i 个 叶 节 点 ; Ni 为 第 i 个 叶 节 点 的 样本 量 ; H(i) 为 
第 i 个 叶 节 点 的 信息 业 ，|Nieay| 为 节点 T 对 应 的 所 有 叶 节 点 个 数 ，o 就 是 调节 参数 。 问 题 是 参数 a 该 
如 何 计算 呢 ? 可 以 通过 下 式 推 导 所 得 : 

节点 7 剪 枝 前 的 目标 函数 值 为 : Ca(T)pefore = C(T)pefore + o .|Neear| 

节点 7 剪 枝 后 的 目标 函数 值 为 : Ce(T)arter = CCT)arter + a*1 

令 Ca(T)before=Ca(T)apter» 得 到 : 

过 C(T)after — C(T)before 
|Nieas| -1 

通过 上 面 的 公式 , 可 以 计算 出 所 有 非 叶子 节点 的 a 值 , 然后 循环 前 去 最 小 Q 值 所 对 应 的 节点 树 。 

下 面 结合 图 10-4 来 说 明代 价 复杂 度 剪 枝 的 详细 过 程 。 





图 104 剪 枝 示意 图 


(1) 对 于 一 棵 充分 生长 的 树 ， 不 妨 含有 4 个 非 叶子 节点 和 5 个 叶子 节点 ， 根 据 计算 o 值 的 公 
式 ， 可 以 得 到 所 有 非 叶子 节点 对 应 的 a 值 。 

(2) 挑选 出 最 小 的 a 值 ， 不 妨 为 «a3， 然 后 对 Ts 进行 剪 枝 ， 使 其 成 为 叶子 节点 ， 便 得 到 一 棵 新 树 。 

(3) 接 下 来 重新 计算 剩余 非 叶子 节点 所 对 应 的 o 值 。 

(4) 不 断 重 复 (2) 和 (3) ， 直 到 决策 树 被 剪 枝 成 根 节点 ， 最 终 得 到 N 棵 新 树 。 

(5) 将 测试 数据 集运 用 到 N 棵 新 树 中 ， 再 从 中 挑选 出 误 判 率 最 低 的 树 作为 最 佳 的 决策 树 。 


如 上 介绍 的 三 种 决策 树 后 剪 枝 方法 都 是 比较 常见 的 , 其 思路 也 比较 通俗 易 懂 , 可 惜 的 是 sklearn 
模块 并 没有 提供 后 剪 枝 的 运算 函数 或 “方法 ”。 这 并 不 意味 着 sklearn 模块 中 的 决策 树 算法 没有 实 
际 的 落地 意义 ， 因 为 它 提供 了 决策 树 的 预 剪 枝 技术 ,如果 预 剪 枝 不 够 理想 ， 读 者 还 可 以 使 用 集成 的 
随机 森林 算法 ， 该 算法 综合 了 多 棵 决策 树 ， 可 以 很 好 地 避免 单 棵 决策 树 过 拟 合 的 可 能 。 
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10.3 ”随机 森林 


随机 森林 属于 集成 算法 ，“ 森 林 ” 从 字面 理解 就 是 由 多 棵 决策 树 构 成 的 集合 ， 而 且 这 些 子 树 
都 是 经 过 充分 生长 的 CART 树 ; “随机 ” 则 表示 构成 多 棵 决策 树 的 数据 是 随机 生成 的 ， 生 成 过 程 
采用 的 是 Bootstrap 抽样 法 。 该 算法 有 两 大 优点 ， 一 是 运行 速度 快 ， 二 是 预测 准确 率 高 ， 被 称 为 最 
好 用 的 算法 之 一 。 

该 算法 的 核心 思想 就 是 采用 多 棵 决策 树 的 投票 机 制 ， 完 成 分 类 或 预测 问题 的 解决 。 对 于 分 类 
问题 ， 将 多 棵 树 的 判断 结果 用 作 投 票 ， 根据 少数 服从 多 数 的 原则 ， 最 终 确 定 样本 所 属 的 类 型 ， 对 于 
预测 性 问题 ， 将 多 棵 树 的 回归 结果 进行 平均 ， 最 终 用 于 样本 的 预测 值 。 

假设 用 于 建 模 的 训练 数据 集中 含有 N 个 观测 、P 个 自 变量 和 1 个 因 变 量 ， 首 先 利 用 Bootstrap 
抽样 法 ， 从 原始 训练 集中 有 放 回 地 抽取 出 N 个 观测 用 于 构建 单 棵 决策 树 ， 然 后 从 P 个 自 变 量 中 随机 
选择 p 个 字段 用 于 CART 决策 树 节点 的 字段 选择 ， 最 后 根据 基尼 指数 生长 出 一 棵 未 经 剪 枝 的 CART 
树 。 最 终 通过 多 轮 的 抽样 ， 生 成 k 个 数据 集 ， 进 而 组 装 成 含有 k 棵 树 的 随机 森林 。 

按照 如 上 的 思想 ， 将 随机 森林 的 建 模 过 程 形象 地 绘制 出 来 ， 如 图 10-5 所 示 ， 和 希望 能 够 帮助 读 
者 理解 其 背后 的 实现 原理 。 


X11 X12 … XI1P 
X21 X22 X2p 








XN1 XN2 ~ XNP 





图 10-5 随机 森林 示意 图 


在 图 10-5 中 ,最 左边 为 原始 的 训练 数据 集 ， 包含 N 个 观测 和 P 个 自 变量 ; 最 右边 为 随机 森林 的 
输出 结果 。 可 以 将 图 10-5 中 随机 森林 的 建 模 过 程 详细 描述 为 : 

日 ”利用 Bootstrap 抽样 法 ， 从 原始 数据 集中 生成 k 个 数据 集 ， 并 且 每 个 数据 集 都 含有 N 个 观测 和 P 
个 自 变量 。 

@ ”针对 每 一 个 数据 集 ， 构 造 一 棵 CART 决策 树 ， 在 构建 子 树 的 过 程 中 ， 并 没有 将 所 有 自 变 量 用 
作 节 点 字段 的 选择 ， 而 是 随机 选择 p 个 字段 。 

日 让 每 一 棵 决策 树 尽 可 能 地 充分 生长 ， 使 得 树 中 的 每 个 节点 尽 可 能 “纯净 ”， 即 随机 森林 中 的 每 
一 棵 子 树 都 不 需要 剪 枝 。 
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”针对 k 棵 CART 树 的 随机 森林 ， 对 分 类 问题 利用 投票 法 ， 将 最 高 得 票 的 类 别 用 于 最 终 的 判断 
结果 ; 对 回归 问题 利用 均值 法 ， 将 其 用 作 预 测 样本 的 最 终结 果 。 


从 上 面 的 描述 可 知 ， 随 机 森林 的 随机 性 体现 在 两 个 方面 ， 一 是 每 棵 树 的 训练 样本 是 随机 的 ， 
二 是 树 中 每 个 节点 的 分 裂 字段 也 是 随机 选择 的 。 两 个 随机 性 的 引入 , 使 得 随机 森林 不 容易 陷入 过 拟 
合 。 如果 随机 森林 所 生成 的 树 的 数量 趋 近 无 穷 大 , 根据 大 数 定律 原理 ， 可 以 认为 训练 误差 与 测试 误 
差 是 相 副 近 的 ， 也 同样 能 够 得 到 随机 森林 是 不 容易 产生 过 拟 合 的 结论 。 
skleam 的 子 模块 ensemble 提供 了 产生 随机 森林 的 “类 ”RandomForestClassifier， 该 “类 ”的 
语法 和 参数 含义 如 下 : 
RandomForestClassifier(n estimators=10, criterion='gini', max depth=None, 
min samples split=2, min samples leaf=1, 
min weight fraction leaf=0.0, max features='auto', 
max leaf nodes=None, min impurity decrease=0.0, 
min impurity split=None, bootstrap=True, 


oo0ob score=False, n jobs=1, random state=None, 
verbose=0, warm start=False, class weight=None) 


RandomForestRegressor (n estimators=10, criterion='mse', max depth=None, 
min_samples split=2, min samples leaf=]1, 
min weight fraction leaf=0.0, max features='auto', 
max_leaf nodes=None, min impurity decrease=0.0, 
min impurity split=None, bootstrap=True, 
oob_ score=False, n jobs=1, random state=None, 
verbose=0, warm start=False) 
@ n_estimators: 用 于 指定 随机 森林 所 包含 的 决策 树 个 数 。 
® criterion: 用 于 指定 每 棵 决策 树 节点 的 分 割 字 段 所 使 用 的 度量 标准 ， 用 于 分 类 的 随机 森林 ， 默 
认 的 criterion 值 为 'gini'; 用 于 回归 的 随机 森林 ， 默 认 的 criterion 值 为 'mse'。 
emax depth: 用 于 指定 每 棵 决策 树 的 最 大 深度 ， 默 认 不 限制 树 的 生长 深度 。 
emin_samples_split: 用 于 指定 每 棵 决策 树 根 节点 或 中 间 节 点 能 够 继续 分 割 的 最 小 样本 量 ， 默 
认为 2。 
@ min samples_leaf: 用 于 指定 每 棵 决策 树叶 节点 的 最 小 样本 量 ， 默 认为 1。 
emin_ weight fraction_leaf: 用 于 指定 每 棵 决策 树叶 节点 最 小 的 样本 权重 ， 默 认为 None， 表 示 


不 考虑 叶 节点 的 样本 权 值 。 

emax_features: 用 于 指定 每 棵 决策 树 包含 的 最 多 分 割 字 段 数 ， 默 认为 None， 表 示 分 割 时 使 用 
所 有 的 字段 。 

@ ”max_leaf nodes: 用 于 指定 每 棵 决策 树 最 大 的 叶 节 点 个 数 ， 默 认为 None， 表 示 对 叶 节点 个 数 
不 做 任何 限制 。 


emin_ impurity decrease: 用 于 指定 每 棵 决策 树 的 节点 是 否 继续 分 割 的 最 小 不 纯度 值 , 默认 为 0。 

日 bootstrap: bool 类 型 参数 ， 是 否 对 原始 数据 集 进行 bootstrap 抽样 ， 用 于 子 树 的 构建 ， 默 认为 
True。 

@ “oob score: bool 类 型 参数 ， 是 否 使 用 包 外 样本 计算 泛 化 误差 ， 默 认为 False， 包 外 样本 是 指 每 
次 bootstrap 抽样 时 没有 被 抽 中 的 样本 。 

en jobs: 用 于 指定 计算 随机 森林 算法 的 CPU 个 数 ， 默 认为 1。 
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random_state: 用 于 指定 随机 数 生成 器 的 种 子 , 默认 为 None, 表示 使 用 默认 的 随机 数 生成 器 。 
verbose: 用 于 指定 随机 森林 计算 过 程 中 是 否 输出 日 志 信 息 ， 默 认为 0， 表 示 不 输出 。 
warm_start: bool 类 型 参数 ， 是 否 基于 上 一 次 的 训练 结果 进行 本 次 的 运算 ， 默 认为 False。 

class_weight: 用 于 指定 因 变量 中 类 别 之 间 的 权重 ， 默 认为 None， 表 示 每 个 类 别 的 权重 都 相 


等 。 


为 了 将 前 文 所 介绍 的 决策 树 和 随机 森林 知识 点 应 用 到 实战 中 ， 这 里 使 用 两 种 数据 集 ， 一 种 是 
用 于 分 类 问题 的 判断 ， 该 数据 集 反 映 的 是 Titanic 乘客 在 灾难 中 是 否 存 活 ， 另 一 种 是 用 于 连续 数值 
的 预测 ， 该 数据 集 反 映 的 是 肾 功 能 患者 在 肾 方面 的 健康 指数 。 





10.4 决策 树 与 随机 森林 的 应 用 


本 节 将 利用 上 面 介 绍 的 两 种 数据 集 ， 对 比 决策 树 和 随机 森林 在 分 类 问题 和 预测 问题 上 的 拟 合 
效果 , 进而 说 明 随 机 森林 算法 既 可 以 提高 预测 准确 率 ， 又 可 以 在 一 定 程度 上 避免 决策 树 过 拟 合 的 现 


象 。 


10.4.1 


分 类 问题 的 解决 


本 小 节 利用 分 类 决策 树 和 分 类 随机 森林 对 Titanic 数据 集 进行 拟 合 ， 该 数据 集 一 共 包 含 891 个 
观测 和 12 个 变量 ， 其 中 变量 Survived 为 因 变量 ，! 表示 存活 ，0 表示 未 存活 。 首 先 预览 一 下 该 数 
据 集 的 前 几 行 : 


# 导入 第 三 方 模块 
import pandas as pd 


# 读 入 数据 
Titanic = pd.read csv(r'C:\Users\Administrator\Desktop\Titanic.csv') 
Titanic.head() 


见 表 10-4。 


表 10-4 Titanic 数据 集 的 前 5 行 预览 






























































Passengerld | Survived [Pclass [Name sex [Age [Sibsp|Parch | Ticket Fare [cabin [Embarked 
ol1 0 3 Braund, Mr Owen Harris male |220 1 0 A521171 7.2500 |NaN |S 
Mi y (FI 

1|2 1 1 ER Ga female |38.0|1 0 PC 17599 712833|C85 |C 

Briggs Th. 

STON/O2. 

2|3 1 3 Heikkinen, Miss. Laina female |26.0|0 0 3101282 7.9250 |NaN |S 

Fi | A Ht May 
3|4 1 1 ee Mrs. Jacques Hean (Uy May [femalelasol1 lo |1asos 53.1000|c123 |s 
4|5 0 3 Alen. Mr Wiliam Henry male |sso 0 0 373450 8.0500 |NaN |S 





如 表 10-4 所 示 ，Passengerld 为 乘客 编号 、Name 为 乘客 姓名 、Ticket 为 船 票 信息 、Cabin 为 客 


舱 信 息 ， 将 这 四 个 变量 用 于 建 模 并 





F 没 有 实际 意义 ， 故 需要 将 它们 从 表 中 删除 :Pclass 为 船舱 等 级 ， 
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虽然 为 数字 ， 但 仍然 需要 做 哑 变 量 处 理 ， 因 为 它 属于 类 别 变 量 ;变量 Sex 和 Embarked 均 为 离散 的 
字符 型 变量 ， 在 建 模 之 前 都 需要 对 其 进行 重 编码 ， 如 因子 化 处 理 、One-Hot 编码 或 哑 变 量 处 理 等 。 
接 下 来 对 该 数据 集 进行 清洗 ， 代 码 如 下 : 

# 删除 无 意义 的 变量 ， 并 检查 剩余 变量 是 否 含有 缺失 值 


Titanic.drop(['PassengerId', 'Name','Ticket','Cabin'], axis = 1, inplace = True) 
Titanic.isnull() .sum(axis = 0) 


out: 

Survived 0 
Pclass 0 
Sex 0 
Age 177 
Sibsp 0 
Parch 0 
Fare 0 
Embarked | 


如 上 结果 所 示 , 数据 集中 Age 变量 和 Embarked 变量 各 含有 177 个 和 2 个 缺失 值 , 接 下 来 分 别 
对 其 使 用 均值 填充 法 和 众 数 填充 法 。 由 于 Age 变量 的 缺失 个 数 比 较 多 ， 故 不 直接 用 该 字段 的 均值 
填充 缺失 值 ， 而 是 按照 性 别 对 客户 的 缺失 年 龄 分 组 填充 ， 代 码 如 下 : 


# 对 Sex 分 组 ， 用 各 组 乘客 的 平均 年 龄 填充 各 组 中 的 缺失 年 龄 
fillna Titanic = [] 
for i in Titanic.Sex.unique(): 
update = Titanic.loc[Titanic.Sex == i,].fillna(value = {'Age': Titanic.Age[Titanic.Sex == 
i] .mean()}, inplace = True) 
fillna Titanic.append (update) 
Titanic = pd.concat (fillna Titanic) 
# 使 用 Embarked 变量 的 众 数 填充 缺失 值 
Titanic.fillna(value = {'Embarked':Titanic.Embarked.mode() [0] }, inplace=True) 


接 下 来 ,还 需要 对 数据 集中 的 离散 变量 Sex 和 Embarked 进行 哑 变 量 处 理 ， 便 于 后 文 决 策 树 的 
解释 ， 代 码 如 下 : 
# 将 数值 型 的 Pclass 转换 为 类 别 型 ， 否 则 无 法 对 其 哑 变 量 处 理 


Titanic.Pclass = Titanic.Pclass.astype('category') 

# 哑 变 量 处 理 

dummy = pd.get dummies (Titanic[['Sex', 'Embarked','Pclass']]) 

# 水 平 合 并 Titanic 数据 集 和 哑 变 量 的 数据 集 

Titanic = pd.concat([Titanic,dummy]，axis = 1) 

# 删除 原始 的 Sex、Embarked 和 Pclass 变量 
Titanic.drop(['Sex','Embarked', 'Pclass'], inplace=True, axis = 1) 
Titanic.head() 


见 表 10-5。 


224 | 从 零 开 始 学 Python 数据 分 析 与 挖掘 





表 10-5 ” 哑 变 量 处 理 结果 




















Survived |Age Sibsp |Parch|Fare 。 | Sex_female | Sex_male|Embarked C | Embarked_Q | Embarked_s | Pclass 1|Pclass 2|Pclass 3 
ol0 22.00000 |1 0 72500 |00 10 00 00 10 00 00 10 
2|1 26.00000|0 0 79250 |10 00 00 00 10 00 00 10 
4|0 35.00000 |0 0 8.0500 |00 10 00 00 10 00 00 10 
5|0 25.14062 |0 0 8.4583 |00 10 00 10 00 00 00 10 
7|o 2.00000 |3 1 21.0750|00 10 00 00 10 00 00 10 















































如 表 10-5 所 示 ， 构 建 的 哑 变 量 为 表 中 右边 的 8 个 变量 ， 由 于 决策 树 不 对 多 重 共 线 性 敏感 ， 故 
无 须 删 除 某 类 哑 变 量 中 的 一 个 (如 性 别 中 的 Sex_female) ， 而 且 二 分 支 决 策 树 也 会 对 离散 变量 中 的 
不 同 值 做 组 合 运算 。 

1. 构建 决策 树 模型 

接 下 来 ， 对 预 处 理 好 的 数据 集 进 行 建 模 和 预测 ， 代 码 如 下 : 

# 导入 第 三 方 包 


from sklearn import model selection 





# 取出 所 有 自 变量 名 称 

predictors = Titanic.columns[1:] 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 ， 且 测试 集 的 比例 为 25% 

XxX train, X test, y train, y test = model selection.train test split (Titanic[predictors], 
Titanic.Survived, test _size = 0.25, random state = 1234) 


为 了 防止 构建 的 决策 树 产 生 过 拟 合 ， 需 要 对 决策 树 进 行 预 剪 枝 ， 如 限制 树 生 长 的 最 大 深度 、 
设置 决策 树 的 中 间 节 点 能 够 继续 分 支 的 最 小 样本 量 以 及 叶 节点 的 最 小 样本 量 等 .为 了 能 够 得 到 比较 
理想 的 树 ， 需 要 不 断 尝试 不 同 组 合 的 参数 值 。 所 幸 的 是 ，Python 提供 了 网 格 搜索 法 ， 可 以 帮助 用 
户 快 速 地 进行 各 参数 组 合 下 的 试 错 ， 网 格 搜索 法 的 实现 需要 调用 GridSearchCV 类 ， 该 “类 ”存储 
在 sklearn 的 子 模块 model_selection 中 。 接 下 来 利用 GridSearchCV 类 选择 最 佳 的 参数 组 合 ,代码 如 
下 : 

# 导入 第 三 方 模块 


from sklearn.model selection import GridSearchCV 
from sklearn import tree 


# 预 设 各 参数 的 不 同 选项 值 

max depth = [2,3,4,5,6] 

min_samples_split = [2,4,6,8] 

min samples leaf = [2,4,8,10,12] 

# 将 各 参数 值 以 字典 形式 组 织 起 来 

parameters = {'max depth':max depth, 'min samples split':min samples split, 
'min_samples_leaf' :min_ samples_leaf} 

# 网 格 搜索 法 ， 测 试 不 同 的 参数 值 

grid dtcateg = GridSearchCV (estimator = tree.DecisionTreeClassifier ()， 

param grid = parameters, cv=10) 

# 模型 拟 合 

grid dtcateg.fit (x train, y train) 

# 返回 最 佳 组 合 的 参数 值 

grid dtcateg.best params_ 
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out: 
{'max depth': 3, 'min samples leaf': 4, 'min samples split': 2} 


如 上 结果 所 示 , 经 过 10 重 交 叉 验证 的 网 格 搜索 , 得 到 各 参数 的 最 佳 组 合 值 为 3,4,2。 根 据 经 验 ， 
如 果 数 据 量 比较 小 时 , 树 的 最 大 深度 可 设置 在 10 以 内 ,反之 则 需 设置 比较 大 的 树 深度 ,如 20 左右 。 
接 下 来 利用 这 个 参数 值 构建 分 类 决策 树 ， 代 码 如 下 : 

# 构建 分 类 决策 树 


CART Class = tree.DecisionTreeClassifier(max depth=3, min samples leaf = 2, 
min samples split=2) 

# 模型 拟 合 

decision tree = CRRT Class.fit(X train, y train) 

# 模型 在 测试 集 上 的 预测 

Pred = CART Class.predict (Xx test) 

# 模型 的 准确 率 

print (' 模 型 在 测试 集 的 预测 准确 率 : \n',metrics.accuracy score(ly test, pred)) 

print (" 模 型 在 训练 集 的 预测 准确 率 : \n'，v 


metrics.accuracy_score (yY_ train, CART Class.predict(X _ train) )) 


out: 


模型 在 测试 集 的 预测 准确 率 : 
0.829596412556 


如 上 结果 所 示 ， 决 策 树 在 测试 数据 集 上 的 预测 准确 率 为 83.0%， 总 体 来 说 ,预测 精度 还 是 比较 
高 的 。 但 该 准确 率 指标 无 法 体现 正 例 和 负 例 的 覆盖 率 ,为 了 进一步 验证 模型 在 测试 集 上 的 预测 效果 ， 
需要 绘制 ROC 曲线 ， 代 人 码 如 下 : 


# 导入 第 三 方 包 
import matplotlib.pyplot as plt 


y_score = CART Class.predict proba(X test)[:,1] 
fpr, tpr,threshold = metrics.roc curvely test, y_score) 

# 计算 AUc 的 值 

roc auc = metrics.auc (fpr,tpr) 

# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 和 对 角 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

plt.plot ([0,1],[0,1], color = 'red', linestyle = '--') 

# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = $0.2f)' % roc auc) 

# 添加 x 轴 与 y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel('Sensitivity') 

# 显示 图 形 

plt.show() 


见 图 10-6。 
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图 10-6 决策 树 的 ROC 曲线 


如 图 10-6 所 示 , ROC 曲线 下 的 面积 AUC 为 0.85, 超过 0.8, 可 以 认为 模型 拟 合 效果 比较 理想 。 
前 文 已 经 提 过 ， 决 策 树 实际 上 就 是 一 个 含有 IF...THEN..… 逻 辑 的 判断 条 件 ， 为 了 展现 决策 树 背 后 逻 
辑 ， 这 里 将 决策 树 进 行 可 视 化 展现 ， 代 码 如 下 : 





见 图 10-7。 
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Fare 215.173 
gri= 0.301 


samples = 423 
Value = [345. 76] 
class = Unsurvived 



















Sb5p305 SbSp325 
gini = 0.184 = 0426 
2 samples = 169 
value = [228. 26] value = [117, 52] 
chass class = d 





gni= 0.168 gmi= 0.375 

Samples = 238 samples = 16 

value = [216. 22] value = [12. 4] 
chass = Unsurvived | | class = Unsurvived 


10-7 决策 树 的 可 视 化 〈 左 半 部 分 ) 


如 图 10-7 所 示 , 通过 对 决策 树 的 预 前 枝 , 生长 成 一 棵 深度 为 3 的 树 ( 根 节 点 不 算 一 层 深度 )， 
根 节点 所 选 的 变量 为 Sex_male, 并 且 以 0.5 作为 分 割 点 ， 其 对 应 的 左 分 支 节点 表示 女性 乘客 ， 右 分 
支 节点 为 男性 乘客 。 以 决策 树 的 最 左边 分 支 为 例 ， 解 释 背后 的 IF...THEN 逻辑 ， 如 果 该 乘客 是 乘 
坐 非 三 等 舱 的 女性 ， 并 且 票 价 小 于 等 于 29.356， 那 么 她 将 是 一 位 幸存 者 。 

需要 注意 的 是 ， 读 者 在 绘制 决策 树 图 之 前 ， 确 保 电 脑 中 安装 了 Graphviz 工具 。 读 者 可 以 前 往 
https://graphviz.gitlab.io/_pages/Download/Download_windows.html 下 载 ， 然 后 将 解压 文件 中 的 bin 
路 径 设 置 到 环境 变量 中 ， 重 新 启动 Python 即 可 。 

2. 构建 随机 森林 模型 

接 下 来 对 比 使 用 随机 森林 算法 ， 这 样 做 的 目的 出 于 两 方面 ， 一 方面 是 为 了 避免 单 棵 决策 树 出 
现 过 拟 合 的 可 能 ， 另 一 方面 在 某 种 程度 上 可 以 提高 模型 的 预测 准确 率 ， 代 码 如 下 : 

# 导入 第 三 方 包 


from sklearn import ensemble 

# 构建 随机 森林 

RF class = ensemble.RandomForestClassifier(n estimators=200, random state=1234) 
# 随机 森林 的 拟 合 

RF _ class.fit(X train, y train) 

# 模型 在 测试 集 上 的 预测 

RFclass pred = RF class.predict (Xx test) 

# 模型 的 准确 率 

Print (' 模 型 在 测试 集 的 预测 准确 率 : \n',metrics.accuracy scorel(ly test, RFclass pred)) 








Gr = 0453 ri = 0.087 
Samples = 147 samples = 22 
value = [96. 51] valve = [21. 1] 

class = Unsurvived class = Unsurvived 


out: 
模型 在 测试 集 的 预测 准确 率 : 
0.85201793722 


如 上 结果 所 示 ， 利 用 随机 森林 对 数据 进行 分 类 ， 确 实 提高 了 测试 数据 集 上 的 预测 准确 率 ， 准 
确 率 超过 85%。 同 理 ， 也 对 该 模型 产生 的 结果 绘制 ROC 曲线 ， 代 码 如 下 : 

# 计算 绘图 数据 

y_score = RF class.predict proba(X test)[:,1] 

fpr, tpr, threshold = metrics.roc curvely test, y_ score) 


roc auc = metrics.auc (fpr,tpr) 


# 绘图 
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plt.stackplot (fpr，tpr，color='steelblue'，alpha = 0.5, edgecolor = 'black') 
plt.plot (fpr, tpr, color='black', lw = 1) 

plt.plot ([0,1],[0,1], color = 'red', linestyle = '--—') 

plt.text (0.5,0.3,'ROC curve (area = %0.2f)' $ roc auc) 

plt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

plt.show() 


见 图 10-8。 
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图 10-8 ”随机 森林 的 ROC 曲线 


如 图 10-8 所 示 ，AUC 值 为 0.87， 同 样 比 单 棵 决策 树 的 AUC 高 。 最 后 ， 利 用 理想 的 随机 森林 


算法 挑选 出 影响 乘客 是 否 幸存 的 重要 因素 ， 代 码 如 下 : 











# 变量 的 重要 性 程度 值 
importance = RF class.feature importances_ 
# 构建 含 序列 用 于 绘图 
Impt Series = pd.Series(importance, index = X train.columns) 
# 对 序列 排序 绘图 
Impt Series.sort values(ascending = True) .Plot('barh') 
# 显示 图 形 
Pplt.show() 
见 图 10-9。 
Me 
Fare 
Sex female 
Sex_male 
Sibsp 
Pelass_ 3 
Parch 
Pclass 1 
Embarked s 
Pelass 2 
Embarked C 
Embarked Q 
Do0 005 010 015 020 025 


10-9 变量 的 重要 性 排序 
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如 图 10-9 所 示 ， 对 各 自 变 量 的 重要 性 做 了 降序 排列 ， 其 中 最 重要 的 前 三 个 变量 分 别 是 乘客 的 
年 龄 、 票 价 和 是 否 为 女性 ， 从 而 在 一 定 程度 上 能 够 体现 危难 时 机 妇女 和 儿童 优先 被 救援 的 精神 。 


10.4.2 ”预测 问题 的 解决 


本 节 继 续 使 用 决策 树 和 随机 森林 算法 进行 项 目 实战 ， 所 不 同 的 是 因 变 量 不 再 是 离散 的 类 别 值 ， 
而 是 连续 的 数值 。 使 用 的 数据 集 是 关于 患者 的 肾 小 球 滤 过 率 , 该 指标 可 以 反映 患者 肾 功 能 的 健康 状 
况 ， 该 数据 集 一 共 包 含 28 009 条 记录 和 10 个 变量 。 首 先 预 览 一 下 该 数据 集 的 前 几 行 信息 : 

# 读 入 数据 


NHANES = pd.read excel(r'C:\Users\Administrator\Desktop\NHANES.xlsx') 
NHANES. head () 


见 表 10-6。 


表 10-6 ” 肾 功 能 数据 的 前 5 行 预览 
































age_months | sex black | BMI HDL | CKD_stage | S$_Creat|cal_creat| meals_not_home | CKD_epi_eGFR 
o|472 1 lo |sozz|ss lo 10 Mio 2 94.388481 
1|283 rh 0 1 109 086423 
2|1o11 2 |。 |2462 0 1 67.700441 
3|176 2 |。 |2728|48 [1 06 |os 3 136.861679 
4|534 1 |o |s384|sa7 |o 09 los 2 103.510891 
































如 表 10-6 所 示 ， 数 据 集中 的 CKD_epi_eGFR 变量 即 为 因 变量 ,， 它 是 连续 的 数值 型 变量 ， 其 余 
变量 包含 患者 的 年 龄 、 性 别 、 肤 色 、 身 体质 量 指数 及 高 密度 脂 蛋 白 指数 等 。 


1. 构建 决策 树 模型 
由 于 数据 集 预先 做 了 相应 的 清洗 ， 这 里 就 直接 使 用 读 入 的 数据 进行 建 模 ， 代 码 如 下 : 
# 取出 自 变量 名 称 


predictors = NHANES.columns[:-1] 

# 将 数据 集 拆 分 为 训练 集 和 测试 集 

X_train, X test, y train, y_test = model selection.train test_split (NHANES [predictors], 
NHANES .CKD epi eGFR, 
test_size = 0.25, 
random state = 1234) 

# 预 设 各 参数 的 不 同 选项 值 

max depth = [18,19,20,21,22] 

min samples split = [2,4,6,8] 

min samples leaf = [2,4,8,10,12] 

parameters = {'max depth':max depth, 'min samples split':min samples split, 

'min samples leaf':min samples leaf} 
# 网 格 搜索 法 ， 测 试 不 同 的 参数 值 
grid dtcateg = GridSearchCV (estimator = tree.DecisionTreeRegressor(), 
Param grid = parameters, cv=10) 

# 模型 拟 合 

grid dtcateg.fit(X train, y train) 

# 返回 最 佳 组 合 的 参数 值 

grid_ dtcateg.best params_ 
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a 20, 'min samples_leaf': 2, 'min samples_split': 4} 

如 代码 所 示 ， 由 于 训练 数据 集 的 样本 量 比 较 大 ， 因 此 设置 的 树 深度 在 20 左右 。 经 过 10 重 交 
叉 验 证 的 网 格 搜索 ， 得 到 各 参数 的 最 佳 组 合 值 为 20,2,4。 接 下 来 利用 这 个 参数 值 构 建 回归 决策 树 ， 
代码 如 下 : 

# 构建 用 于 回归 的 决策 树 


CART Reg = tree.DecisionTreeRegressor(max depth = 20, min samples leaf = 2, 
min samples split = 4) 





# 回归 树 拟 合 

CART Reg.fit(X train, y train) 
# 模型 在 测试 集 上 的 预测 

pred = CART Reg.predict (xX test) 
# 计算 衡量 模型 好 坏 的 MSE 值 


metrics.mean squared error(y test, pred) 


out: 
1.8355765418468155 


由 于 因 变 量 为 连续 型 的 数值 ， 因 此 不 能 再 使 用 分 类 模型 中 的 准确 率 指标 进行 评估 ， 而 是 使 用 
均 方 误差 MSE 或 均 方 根 误差 RMSE， 该 指标 越 小 ， 说 明 模型 拟 合 效果 越 好 。 通 过 模型 在 测试 集 上 
的 预测 ， 计 算得 到 MSE 的 值 为 1.84。 由 于 树 的 深度 高 达 20 层 ， 不 便于 绘制 决策 树 图 ， 故 这 里 就 
不 再 给 出 相应 的 绘图 代码 , 如 果 读 者 感 兴趣 , 可 以 参照 10.4.1 节 中 的 决策 树 图 形 代码 对 回归 树 进行 
可 视 化 。 


2. 构建 随机 森林 模型 


接 下 来 使 用 随机 森林 算法 ， 重 新 对 该 数据 集 进 行 建 模 ， 进 而 比较 与 单 棵 回归 决策 树 之 间 的 差 
异 ， 代 码 如 下 : 
# 构建 用 于 回归 的 随机 森林 


RF = ensemble.RandomForestRegressor(n estimators=200, random state=1234) 
# 随机 森林 拟 合 

RF.fit(X train, y train) 

# 模型 在 测试 集 上 的 预测 

RF pred = RF.predict(X _ test) 

# 计算 模型 的 MSE 值 


metrics.mean_ squared errorl(y test, RF pred) 





out: 
0.89592317816584133 


如 上 结果 所 示 ， 随 机 森林 算法 在 测试 集 上 的 MSE 为 0.90， 明 显 比 单 棵 决策 树 的 MSE 小 了 一 
半 , 可 以 说 明 随机 森林 的 拟 合 效 果 要 比 单 棵 回归 树 理想 .最 后 , 基于 随机 森林 计算 的 变量 重要 性 绘 
制 条 形 图 ， 代 码 如 下 : 

# 构建 变量 重要 性 的 序列 

importance = pd.Series (RF.feature importances , index = X_train.columns) 

# 排序 并 绘图 


importance.sort values() .plot('barh') 
plt.show() 
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见 图 10-10。 
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10-10 ”基于 随机 森林 变量 绘制 的 条 形 图 


如 图 10-10 所 示 ， 影 响 模型 预测 准确 率 的 三 个 主要 因素 分 别 是 年 龄 、 某 尿 液 细胞 指标 和 慢性 肾 
脏 病 所 属 的 阶段 。 

通过 两 个 实战 案例 的 介绍 ， 相 信 读 者 已 经 掌握 了 决策 树 和 随机 森林 的 应 用 ， 通 过 比较 可 以 得 
知 两 点 ， 一 方面 说 明 决 策 树 既 可 以 解决 分 类 问题 (DecisionTreeClassifier) ， 又 可 以 解决 预测 问题 
(DecisionTreeRegressor) ; 另 一 方面 说 明 随机 森林 在 解决 单 棵 决策 树 的 过 拟 合 时 是 一 个 非常 不 错 
的 选择 。 


10.5 ”本 全 小 结 


本 章 介绍 了 有 监督 的 学 习 模型 ， 即 决策 树 与 随机 森林 。 这 两 类 模型 都 可 以 实现 分 类 数据 与 连 
续 数据 的 预测 , 更 重要 的 是 随机 森林 在 计算 量 较 低 的 情况 下 提高 了 预测 准确 率 、 防止 了 单 棵 决策 树 
的 过 拟 合 。 通 过 对 比 信息 增益 、 信 息 增 益 率 和 基尼 指数 的 运算 ， 说 明了 ID3、C4.5 和 CART 决策 
树 在 节点 变量 上 的 选择 原理 ; 为 了 避免 决策 树 的 过 拟 合 ,也 讲解 了 几 种 常用 的 后 剪 枝 方法 ; 最 后 通 
过 两 个 实战 案例 对 比 了 决策 树 和 随机 森林 算法 之 间 的 拟 合 效果 ,得 到 了 随机 森林 算法 具有 更 高 的 预 
测 精度 和 更 强 的 稳健 性 特点 。 通 过 本 章 内 容 的 学 习 , 读者 可 以 将 这 两 种 常用 的 监督 算法 应 用 到 实际 
的 工作 中 ， 解 决 分 类 或 预测 性 问题 。 

为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 。 























Python 模块 。 | Python 函数 或 方法 函数 说 明 
| dop 删除 数据 框 字段 的 函数 
pandas | isnull 判断 数据 框 或 序列 元 素 是 否 为 空 的 “方法 ” 
concat 根据 轴 完 成 数据 横向 或 纵向 的 合并 “方法 ” 
get_dummies 将 离散 变量 转 为 吓 变 量 的 函数 
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( 续 表 ) 
Python 模块 ”| Python 函数 或 方法 函数 说 明 
pandas sort values 对 数据 框 或 序列 元 素 排序 的 “方法 ” 
plot 基于 数据 框 或 序列 的 绘图 “方法 ” 
train_test_split 将 数据 集 拆 分 为 训练 集 和 测试 集 的 函数 
GridSearchCV, 构建 网 格 搜索 的 “类 ” 
best params 基于 网 格 搜索 返回 最 佳 的 参数 组 合 
DecisionTreeClassifier 构建 分 类 决策 树 的 “类 ” 
accuracy Score 计算 模型 分 类 准确 率 的 函数 
sklearn predict proba 基于 模型 预测 样本 各 类 别 概率 的 “方法 ” 
roc_curve 构建 绘制 ROC 曲线 数据 的 函数 
RandomForestClassifier 构建 用 于 分 类 的 随机 森林 “类 ” 





pydotplus 








feature importances_ 
Decision TreeRegressor 
RandomForestRegressor 
export graphviz 
graph from dot data 





基于 模型 返回 各 自 变量 的 重要 性 
构建 回归 决策 树 的 “类 ” 

构建 用 于 回归 的 随机 森林 “类 ” 
绘制 决策 树 图 的 函数 

生成 决策 树 图 数据 的 函数 





KNN 模型 的 应 用 


本 章 介 绍 的 KNN 模型 仍然 为 有 监督 的 学 习 算 法 , 它 的 中 文 名 称 为 K 最 近邻 算法 , 同样 是 十 大 
挖掘 算法 之 一 。 与 前 4 章 所 不 同 的 是 它 属 于 “惰性 ”学 习 算法 ， 即 不 会 预先 生成 一 个 分 类 或 预测 模 
型 ， 用 于 新 样本 的 预测 ， 而 是 将 模型 的 构建 与 未 知 数据 的 预测 同时 进行 。 该 算法 和 第 10 章 介 绍 的 
决策 树 功能 类 似 ， 既 可 以 针对 离散 因 变 量 做 分 类 ， 又 可 以 对 连续 因 变 量 做 预测 ， 其 核心 思想 就 是 比 
较 已 知 y 值 的 样本 与 未 知 y 值 样本 的 相似 度 ， 然 后 寻找 最 相似 的 上 个 样本 用 作 未 知 样本 的 预测 。 该 
算法 在 实际 的 应 用 中 还 是 非常 普遍 的 , 解决 问题 的 思路 通俗 易 懂 ， 同 样 不 需要 高 深 的 数据 基础 作为 
铺垫 。 

接 下 来 ， 本 章 将 详细 介绍 有 关 KNN 模型 的 知识 点 ， 希 望 读者 在 学 完 本 章 内 容 后 ， 可 以 掌握 如 
下 几 方 面 的 要 点 : 

KNN 算法 的 理论 思想 ; 

最 佳 上 值 的 选择 ; 

样本 间 相 似 度 的 度量 方法 ; 

几 种 常见 的 近邻 样本 搜寻 方法 ; 
KNN 算法 的 应 用 实战 。 


11.1 KNN 算法 的 思想 


K 最 近邻 算法 , 顾名思义 就 是 搜寻 最 近 的 k 个 已 知 类 别 样本 用 于 未 知 类 别 样本 的 预测 。 “最 近 ” 
的 度量 就 是 应 用 点 之 间 的 距离 或 相似 性 。 距离 越 小 或 相似 度 越 高 ， 说 明 它们 之 间 越 近 , 关于 样本 间 
的 远近 度量 将 在 下 一 节 中 介绍 。“ 预 测 ”， 对 于 离散 型 的 因 变量 来 说 ， 从 K 个 最 近 的 已 知 类 别 样本 
中 挑选 出 频率 最 高 的 类 别 用 于 未 知 样本 的 判断 : 对 于 连续 型 的 因 变量 来 说 ， 则 是 将 K 个 最 近 的 已 知 
样本 均值 用 作 未 知 样本 的 预测 。 为 了 能 够 使 读者 理解 KNN 算法 的 思想 , 简单 绘制 了 如 图 11-1 所 示 
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的 示意 图 。 





图 11-1 KNN 算法 的 示意 图 
如 图 11-1 所 示 ， 假 设 数据 集中 一 共 含 有 两 种 类 别 ， 分 别 用 五 角 星 和 三 角形 表示 ， 待 预测 样本 





为 各 圆 的 圆心 。 如 果 以 近邻 个 数 k=5 为 例 ， 就 可 以 通过 投票 方式 快速 得 到 未 知 样本 所 属 的 类 别 。 该 
算法 的 背后 是 如 何 实现 上 面 分 类 的 呢 ? 它 的 具体 步骤 可 以 描述 为 : 
@ 确定 未 知 样本 近邻 的 个 数 k 值 。 
@ ”根据 某 种 度量 样本 间 相 似 度 的 指标 ( 如 欧 氏 距离 ) 将 每 一 个 未 知 类 别 样本 的 最 近 k 个 已 知 样 
本 搜寻 出 来 ， 形 成 一 个 个 徐 。 
@ 对 搜寻 出 来 的 已 知 样本 进行 投票 ， 将 各 竹下 类 别 最 多 的 分 类 用 作 未知 样 本 点 的 预测 。 


通过 上 面 的 步骤 ， 也 能 够 解释 为 什么 该 算法 被 称 为 “惰性 ”学 习 算 法 ， 如 果 该 算法 仅仅 接受 
已 知 类 别 的 样本 点 ， 它 是 不 会 进行 模型 运算 的 ， 只 有 将 未 知 类 别 样本 加 入 到 已 知 类 别 样本 中 ， 它 才 
会 执行 搜寻 工作 ， 并 将 最 终 的 分 类 结果 返回 出 来 。 

所 以 ， 执 行 KNN 算法 的 第 一 个 任务 就 是 指定 最 近邻 的 个 数 k 值 ， 接 下 来 需要 探讨 KNN 算法 
中 该 如 何 选择 合理 的 k 值 。 











11.2 ”最 佳 大 值 的 选择 





根据 经 验 发 现 ， 不 同 的 k 值 对 模型 的 预测 准确 性 会 有 比较 大 的 影响 ， 如 果 k 值 过 于 仿 小 ， 可 能 
会 导致 模型 的 过 拟 合 ; 反之 ,又 可 能 会 使 模型 进入 欠 拟 合 状态 。 为 了 使 读者 理解 上 述 的 含义 ， 这 里 
举 两 个 极端 的 例子 加 以 说 明 。 

假设 k 值 为 1 时， 意味 着 未 知 样本 点 的 类 别 将 由 最 近 的 1 个 已 知 样本 点 所 决定 ,投票 功 能 将 不 
再 起 效 。 对 于 训练 数据 集 本 身 来 说 ， 其 训练 误差 几乎 为 0; 但 是 对 于 未 知 的 测试 数据 集 来 说 ， 训 练 
误差 可 能 会 很 大 ， 因 为 距离 最 近 的 1 个 已 知 样本 点 可 以 是 异常 观测 也 可 以 是 正常 观测 。 所 以 ，k 值 
过 于 偏 小 可 能 会 导致 模型 的 过 拟 合 。 

假设 k 值 为 N 时 ， 意 味 着 未 知 样本 点 的 类 别 将 由 所 有 已 知 样本 点 中 频数 最 高 的 类 别 所 决定 。 所 
以 , 不 管 是 训练 数据 集 , 还 是 测试 数据 集 ， 都 会 被 判 为 一 种 类 别 ， 进 而 导致 模型 无 法 在 训练 数据 集 
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和 测试 数据 集 上 得 到 理想 的 准确 率 。 进 而 可 以 说 明 , k 值 越 大 , 模型 偏向 于 从 拟 合 的 可 能 性 就 越 大 。 

为 了 获得 最 佳 的 k 值 ， 可 以 考虑 两 种 解决 方案 ， 一 种 是 设置 近邻 样本 的 投票 权重 ， 假 设 读者 
在 使 用 KNN 算法 进行 分 类 或 预测 时 设置 的 k 值 比较 大 ， 担 心 模型 发 生 欠 拟 合 的 现象 ， 一 个 简单 有 
效 的 处 理 办 法 就 是 设置 近邻 样本 的 投票 权重 , 如 果 已 知 样本 距离 未 知 样本 比较 远 , 则 对 应 的 权重 就 
设置 得 低 一 些 , 否则 权重 就 高 一 些 , 通常 可 以 将 权重 设置 为 距离 的 倒数 ; 另 一 种 是 采用 多 重 交 叉 验 
证 法 ， 该 方法 是 目前 比较 流行 的 方案 ， 其 核心 就 是 将 k 取 不 同 的 值 ， 然 后 在 每 种 值 下 执行 m 重 的 交 
叉 验证 ,最 后 选 出 平均 误差 最 小 的 k 值 。 当 然 , 还 可 以 将 两 种 方法 的 优点 相 结合 ,， 选 出 理想 的 k 值 ， 
读者 可 以 查看 后 文 的 实际 案例 ， 理 解 最 佳 k 值 的 确定 方法 。 

接 下 来 ， 第 二 个 任务 就 是 选择 一 个 用 于 度量 样本 间 相 似 性 的 指标 ， 这 部 分 内 容 将 在 下 一 节 中 
进行 详细 的 介绍 。 




















11.3 ”相似 度 的 度量 方法 


如 前 文 所 说 ,KNN 分 类 算法 的 思想 是 计算 未 知 分 类 的 样本 点 与 已 知 分 类 的 样本 点 之 间 的 距离 ， 
然后 将 未 知 分 类 最 近 的 k 个 已 知 分 类 样本 用 作 投票 。 所 以 该 算法 的 一 个 重要 步骤 就 是 计算 它们 之 间 
的 相似 性 , 那么 , 都 有 哪些 距离 方法 可 以 用 来 度量 点 之 间 的 相似 度 呢 ? 这 里 简单 介绍 两 种 常用 的 距 
离 公 式 , 分 别 是 欧式 距离 和 曼哈顿 距离 ,然后 拓展 两 种 相似 度 的 度量 指标 ， 一 个 是 余弦 相似 度 ， 另 
一 个 是 杰 卡 德 相似 系数 。 


11.3.1 欧式 距离 
该 距离 度量 的 是 两 点 之 间 的 直线 距离 ， 如 果 二 维 平面 中 存在 两 点 4(xuyia)、B(xzz,yz)， 则 它们 
之 间 的 直线 距离 为 : 
dap = V(X1 — x2)? + (yi — y2)? 
可 以 将 如 上 的 欧式 距离 公式 反映 到 图 11-2 中 ， 实 际 上 就 是 直角 三 角形 斜 边 的 长 度 ， 即 勾 股 定 
理 的 计算 公式 。 


B(xz2,72) 


A(x1y. 1) 





11-2 欧 氏 距离 的 几何 理解 
如 果 将 点 扩展 到 n 维 空间 ， 则 点 4(xy,xz,…w)、B yyy2,… 加 ) 之 间 的 欧式 距离 可 以 表示 成 : 
da = V1 — x1)? + yz — xX2)? + + Yn — Xn)? 
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11.3.2 ”曼哈顿 距离 
该 距离 也 称 为 “曼哈顿 街区 距离 ”， 度 量 的 是 两 点 在 轴 上 的 相对 距离 总 和 。 所 以 ， 二 维 平面 
中 两 点 4(xu yi)、B(xz,y2) 之 间 的 曼哈顿 距离 可 以 表示 成 : 
dap = |xi— x2| + |y1 — y2| 
将 曼哈顿 距离 表示 在 图 11-3 中 ， 读 者 就 能 够 理解 上 面 公式 所 表达 的 含义 了 : 





x1 1) 














11-3 ”曼哈顿 距离 的 几何 理解 


如 图 11-3 所 示 ， 假 设 各 网 格 线 代 表 每 一 条 街道 ， 如 果 从 4 点 出 发 ， 前 往 B 点 ， 则 两 点 之 间 的 距 
离 可 以 是 沿 着 红色 虚线 行走 的 路 程 之 和 。 换 句 话 说， 虚线 的 长 度 之 和 其 实 就 是 4C 与 CB 的 路 程 和 ， 
即 曼哈顿 距离 就 是 在 轴 上 的 相对 距离 总 和 。 
同样 ， 如 果 将 点 扩展 到 mn 维 空间 ， 则 点 4Ccu xz,… Xn)、B (yyz,… 4) 之 间 的 曼 蛤 顿 距离 可 以 
表示 成 : 
dap = |y1 — Xl|+ |yz — xz| + + |yn — Xnl 


11.3.3 ”余弦 相似 度 


该 相似 度 其 实 就 是 计算 两 点 所 构成 向 量 夹 角 的 余弦 值 ， 夹 角 越 小 ， 则 余弦 值 越 接 近 于 1， 进 而 
能 够 说 明 两 点 之 间 越 相似 。 对 于 二 维 平面 中 的 两 点 4(x1, 1)、B(x2,y2) 来 说 ， 它 们 之 间 的 余弦 相似 
度 可 以 表示 成 : 
X1X2 + yi1y2 
对 十 于 VY 台 十 并 
将 A(xi,y1)、B(xz,y2) 两 点 所 构成 向 量 的 夹 角 绘制 在 图 11-4 中 ， 就 能 够 理解 夹 角 越 小 ， 两 点 
越 相 似 的 结论 。 


SimilarityaB = C0s0 = 
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A(x1,y1) 


B(x2,y,) 








11-4 余弦 相似 度 的 几何 理解 


假设 4、B 代 表 两 个 用 户 从 事 某 件 事 的 意愿 ， 意 愿 程度 的 大 小 用 各 自 的 夹 角 9, 和 8, 表示， 两 个 
夹 角 之 差 9 越 小 ， 则 说 明 两 者 的 意愿 方向 越 一 致 ， 进 而 他 们 的 相似 度 越 高 (不 管 是 相同 的 高 意愿 还 
是 低 意 愿 ) 。 
如 果 将 点 扩展 到 mn 维 空间 ， 则 点 4(xtuxz,…xn)、B(Oxmuy2z… 功 ) 之 间 的 余弦 相似 度 可 以 用 向 量 
表示 为 : 
Similarityas = C0s0 = 
1allall 
其 中 ， 点 :代表 两 个 向 量 之 间 的 内 积 ， 符 号 上 代表 向 量 的 模 ， 即 12 正 则 。 


11.3.4” 杰 卡 德 相似 系数 


该 相似 系数 与 余弦 相似 度 经 常 被 用 于 推荐 算法 ， 计 算 用 户 之 间 的 相似 性 。 例 如 ，4 用 户 购买 了 
10 件 不 同 的 商品 ，B 用 户 购 买 了 15 件 不 同 的 商品 ， 则 两 者 之 间 的 相似 系数 可 以 表示 为 : 
I4nB1 


J(4,B) =1a0 可 


其 中 , I4NB| 表 示 两 个 用 户 所 购买 相同 商品 的 数量 , |4UB| 代 表 两 个 用 户 购买 所 有 产品 的 数量 。 
例如 ，4 用 户 购买 的 10 件 商品 中 有 8 件 与 B 用 户 一 致 ， 且 两 个 用 户 一 共 购 买 了 17 件 不 同 的 商品 ， 
则 它们 的 杰 卡 德 相似 系数 为 8/17。 按照 上 面 的 公式 ， 杰 卡 德 相似 系数 越 大 ,代表 样本 之 间 越 接近 。 

使 用 距离 方法 来 度量 样本 间 的 相似 性 时 ， 必 须 注意 两 点 ， 一 个 是 所 有 变量 的 数值 化 ， 如 果 某 
些 变量 为 离散 型 的 字符 串 ， 它 们 是 无 法 计算 距离 的 ， 需 要 对 其 做 数值 化 处 理 ， 如 构造 哑 变 量 或 强制 
数值 编码 〈 例 如 将 受 教育 水 平 中 的 高 中 、 大 学 、 硕 士 及 以 上 三 种 离散 值 重 编码 为 0,1,2) ; 另 一 个 
是 防止 数值 变量 的 量 纲 影响 , 在 实际 项 目的 数据 中 , 不 同 变量 的 数值 范围 可 能 是 不 一 样 的 ， 这 样 就 
会 使 计算 的 距离 值 受到 影响 , 所 以 必须 采用 数据 的 标准 化 方法 对 其 归 一 化 , 使 得 所 有 变量 的 数值 具 
有 可 比 性 。 

在 确定 好 某 种 距离 的 计算 公式 后 ，KNN 算法 就 开始 搜寻 最 近 的 k 个 已 知 类 别 样本 点 。 实 际 上 
该 算法 在 搜寻 过 程 中 是 非常 耗 内 存 的 , 因为 它 需 要 不 停 地 比较 每 一 个 未 知 样本 与 已 知 样本 之 间 的 距 
离 。 在 接 下 来 的 一 节 中 将 介绍 几 种 常用 的 近邻 搜寻 方法 ， 包 括 暴力 搜寻 法 、KD 树 搜寻 法 和 球 树 搜 
寻 法 ， 使 用 不 同 的 搜寻 方法 往往 会 提升 模型 的 执行 效率 。 
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11.4 ”近邻 样本 的 搜寻 方法 


搜寻 的 实质 就 是 计算 并 比较 未 知 样本 和 已 知 样本 之 间 的 距离 ， 最 简单 粗暴 的 方法 就 是 全 表 扫 
描 , 该 方法 被 称 为 暴力 搜寻 法 。 例 如， 针对 某 个 未 知 类 别 的 测试 样本 ,需要 计算 它 与 所 有 已 知 类 别 
的 样本 点 之 间 的 距离 ， 然 后 从 中 挑选 出 最 近 的 k 个 样本 ， 再 基于 这 k 个 样本 进行 投票 ， 将 票数 最 多 
的 类 别 用 作 未 知 样本 的 预测 。 该 方法 简单 而 直接 ， 可 以 将 算法 的 扫描 过 程 呈现 在 图 11-5 中 。 








图 11-5 5 个 近邻 样本 的 选择 


图 11-5 中 的 五 角 星 和 三 角形 代表 两 种 已 知 类 别 的 训练 样本 ， 黑 点 代表 未 知 类 别 的 测试 样本 。 
以 某 个 未 知 类 别 样本 点 为 例 , 计算 它 与 所 有 已 知 样 本 点 的 距离 ， 最 终 得 到 5 个 最 近 的 样本 (如 图 中 
的 虚 框 所 示 ) ， 进 而 根据 投票 原则 ， 将 该 未 知 样本 预测 为 五 角 星 代表 的 类 别 。 以 此 类 推 ， 还 需要 计 
算 其 余 未 知 类 别 样本 与 所 有 已 知 类 别 样本 之 间 的 距离 ， 最 终 得 到 对 应 的 预测 结果 。 

虽然 该 搜寻 方法 简单 粗暴 、 通 俗 易 慌 ， 但 只 能 适合 小 样本 的 数据 集 ， 一 旦 数据 集 的 变量 个 数 
和 观测 个 数 扩 大 时 ，KNN 算法 的 执行 效率 就 会 非常 低下 。 其 运算 过 程 就 相当 于 使 用 了 两 层 for 循 
环 ， 不仅 要 人 迭代 每 一 个 未 知 类 别 的 样本 ， 还 需要 迭代 所 有 已 知 类 别 的 样本 。 为 了 避免 全 表 扫 描 ， 科 
学 家 发 明了 KD 树 搜寻 法 和 球 树 搜寻 法 , 接 下 来 将 重点 介绍 这 两 种 提高 KNN 执行 效率 的 搜寻 方法 。 





11.4.1 ”KD 树 搜寻 法 


KD 树 的 英文 名 称 为 K-Dimension Tree， 它 与 第 10 章 介 绍 的 决策 树 类 似 ， 是 一 种 二 分 支 的 树 
结构 ， 这 里 的 K 表示 训练 集中 包含 的 变量 个 数 ， 而 非 KNN 模型 中 的 K 个 近邻 样本 。 其 最 大 的 搜 
寻 特 点 是 先 利 用 所 有 已 知 类 别 的 样本 点 构造 一 棵 树 模型 ,然后 将 未 知 类 别 的 测试 集 应 有 在 树 模 型 上 ， 
实现 最 终 的 预测 功能 。 先 建树 后 预测 的 模式 ,能够 避免 全 表 扫 描 , 提高 KNN 模型 的 运行 速度 。 KD 
树 搜寻 法 包含 两 个 重要 的 步骤 , 第 一 个 步骤 是 如 何 构造 一 棵 二 又 树 ， 第 二 个 步 又 是 如 何 实现 最 近邻 
的 搜索 。 
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1. KD 树 的 构造 

由 第 10 章 的 决策 树 内 容 可 知 ， 构 造 一 棵 树 至 少 需要 知道 三 方面 的 信息 ， 首 先是 选用 哪 一 个 变 
量 用 作 根 节点 或 中 间 节 点 的 分 割 字段 ; 其 次 是 分 割 字段 的 分 割 点 该 如 何 选择 , 最 后 是 树 生 长 的 停止 
条 件 是 什么 。 这 三 个 问题 的 回答 就 能 够 描述 KD 树 的 构造 过 程 : 


(1) 计算 训练 数据 集中 每 个 变量 的 方差 ， 将 最 大 方差 的 变量 x 用 作 根 节点 的 字段 选择 。 

(2) 按照 变量 x 对 训练 数据 集 做 升序 排序 ， 并 计算 该 变量 对 应 的 中 位 数 x* (这 里 的 中 位 数 选 
择 为 x[len(x)//2]) ， 然 后 以 好 作为 分 割 字段 的 分 割 点 。 此 时 ， 根 节点 可 以 被 划分 为 两 个 子 节点 ， 
左边 的 子 节点 存储 所 有 xx* 的 样本 ， 右 边 的 子 节点 存储 所 有 x > x* 的 样本 ， 分 割 点 x* 则 保留 在 根 
节点 中 。 

(3) 重复 步骤 (1) 和 (2) ， 继 续 选 择 方差 最 大 的 变量 和 对 应 的 中 位 数 构造 子 树 ， 直 到 满足 
停止 生长 的 条 件 为 止 。 


为 了 能 够 使 读者 理解 上 述 中 KD 树 的 构建 过 程 ， 这 里 举 一 个 简单 的 例子 加 以 说 明 。 假 设 该 例 
子 仅 包含 两 个 自 变 量 x 和 y, 一 共 涉及 11 个 已 知 类 别 的 样本 点 , 它们 分 别 是 (1,1)、(1,5)、 (2,3)、(4,7)、 
(5,2)、(6,4)、(7,1)、(8,8)、(9,2)、(9,5)、(10,3)。 按 照 上 面 的 操作 步骤 ， 可 以 构造 成 一 棵 KD 树 : 

根 节点 字段 的 选择 需要 计算 自 变量 x 和 y 的 方差 ，x 的 方差 为 9.87，y 的 方差 为 4.93， 故 选择 变 
量 x 作 为 根 节点 字段 。 接 下 来 将 11 个 样本 按照 变量 x 升序 排序 ， 并 计算 得 到 变量 x 的 中 位 数 所 对 应 
的 样本 为 (6,4)， 故 将 该 点 保留 在 根 节点 内 ， 然 后 选 出 所 有 x 和 6 的 样本 放 在 根 节点 的 左 支 内 ， 剩 余 
样本 放 在 根 节点 的 右 支 内 。 分 别 计 算 左 、 右 节点 内 样本 方差 最 大 的 变量 和 中 位 数 ， 实 现 第 二 层 中 间 
节点 的 继续 分 支 ， 这 里 就 不 详细 计算 了 ， 读 者 可 以 查看 图 11-6 中 最 终 构造 好 的 KD 树 。 

















(1,5) (92) 
(23) {71) 

(47) (9,5) 
(5,2) (8,8) 

(11) (10,3) 


如 图 11-6 所 示 ， 黑 色 椭 圆 为 根 节点 ， 以 x 变量 作为 划分 ， 并 且 点 (6,4) 为 分 割 点 ; 浅 色 椭圆 为 中 
间 节 点 ， 左 节点 以 y 变 量 作为 划分 ， 分 割 点 为 (2.3)， 右 节点 以 y 变 量 作为 划分 ， 分 割 点 为 (10.3); 矩 


形 为 叶 节 点 ， 保 留 所 有 无 法 继续 划分 的 样本 点 。 
所 以 ，KD 树 实际 上 是 按照 K 维 的 数 轴 对 数据 进行 划分 ， 最 终 将 K 维 空间 切割 为 一 个 个 超 矩 
形体 。 仍 然 以 上 面 的 数据 为 例 ， 将 二 维 空间 按照 各 分 割 点 把 数据 切 分 开 ， 如 图 11-7 所 示 。 
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图 11-7 KD 树 的 空间 分 割 


对 于 一 个 二 维 空间 而 言 ， 如 果 按 照 (6,4)、(2.3) 和 (10,3) 三 个 点 进行 分 割 ， 可 以 得 到 如 上 所 和 示 的 
四 个 矩形 区 域 ， 每 一 个 区 域 所 包含 的 样本 点 对 应 了 KD 树 中 叶 节 点 的 样本 。 


2. KD 树 的 搜寻 


当 一 个 未 知 类 别 的 样本 进入 到 KD 树 后 ， 就 会 自 项 向 下 地 流 消 到 对 应 的 叶 节点 中 ， 并 开始 反 
向 计算 最 近邻 的 样本 。 有 关 KD 树 的 搜寻 步骤 可 以 描述 为 : 


(1) 将 测试 集中 的 某 个 数据 点 与 当前 节点 〈 例 如 根 节点 或 某 个 中 间 节 点 ) 所 在 轴 的 数据 进行 
比较 ,如 果 未 知 类 别 的 样本 点 所 对 应 的 轴 数 据 小 于 等 于 当前 节点 的 轴 数 据 , 则 将 该 测试 点 流入 到 当 
前 节点 的 左 侧 子 节点 中 ， 否 则 流入 到 当前 节点 的 右 侧 子 节点 中 。 

(2) 重复 步骤 (1) ， 直 到 未 知 类 别 的 样本 点 落 入 对 应 的 叶 节 点 中 ， 此 时 从 叶 节 点 中 搜寻 
到 “临时 ”的 最 近邻 点 ， 然 后 以 未 知 类 别 的 测试 点 为 中 心 ， 以 叶 节点 中 的 最 近 距 离 为 半径 ， 构 
成 球体 。 

(3) 按照 起 初 流 消 的 顺序 原 路 返回 ， 从 叶 节点 返回 到 上 一 层 的 父 节 点 ， 检 查 步 又 (2) 中 的 
球体 是 否 与 父 节点 构成 的 分 割 线 相交 , 如 果 相 交 , 需要 从 父 节 点 和 对 应 的 另 一 侧 叶 节点 中 重新 搜寻 
最 近邻 点 。 

(4) 如 果 在 步骤 (3) 中 搜寻 到 比 步骤 (2) 中 的 半径 还 小 的 新 样本 ， 则 将 其 更 新 为 当前 最 近 
邻 点 ， 并 重新 构造 球体 ， 和 否则 ， 就 返回 到 父 节点 的 父 节点 ， 重 新 检查 球体 是 否 与 分 割 线 相交 。 

(5) 不 断 重复 迭代 步骤 (3) 和 (4)， 最 终 从 所 有 已 知 类 别 的 样本 中 搜寻 出 最 新 的 近邻 样本 。 


上 述 的 步骤 理解 起 来 可 能 比较 困难 ， 为 了 使 读者 掌握 KD 树 的 搜寻 步骤 ， 这 里 不 妨 以 测试 集 
中 的 (3.2.2.8) 点 为 例 ， 解 释 最 近邻 样本 的 搜寻 过 程 ， 如 图 11-8 所 示 。 
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图 11-8 ”KD 树 的 搜索 过 程 


如 图 11-8 所 示 , 五角 星 就 是 测试 点 (3.2,.2.8)。 首 先 ,根据 图 11-6 中 的 KD 树 ,比较 测试 点 (3.2,2.8) 
与 根 节点 (6,4) 在 x 轴 上 的 大 小 ， 由 于 3.2 三 6， 所 以 该 测试 点 会 流入 到 根 节点 的 左 分 支 中 ， 继 续 对 比 
点 (3.2,2.8) 与 中 间 节 点 (2,3) 在 y 轴 上 的 大 小 ， 由 于 2.8 夺 3, 因此 测试 点 最 终 落 入 中 间 节 点 的 左 侧 叶 节 
点 中 ， 从 而 得 到 一 条 完整 的 搜索 路 径 <(6,4)，(2,3)，[(1,1),(5,2)]>; 然后 计算 测试 点 (3.2,2.8) 与 叶 节 
点 中 的 (1,1) 和 (5,2) 之 间 的 距离 , 得 到 “临时 ”最 近邻 点 为 (5,2), 距离 为 1.97, 并 绘制 以 测试 点 (3.2,2.8) 
为 中 心 、1.97 为 半径 的 圆 (如 图 11-8 中 所 示 的 外 圈 虚 线 圆 ); 接着 从 叶 节 点 返回 父 节点 (2,3)， 检 
查 外 圈 虚 线 圆 是 否 与 分 割 线 y=3 相交 ， 从 图 中 可 以 很 明显 地 发 现 两 者 出 现 了 相交 ,所 以 需要 进入 父 
车 点 (2,3) 和 对 应 的 右 侧 叶 节 点 [(1,5),(4,7)] 中 重新 搜寻 最 近邻 的 样本 点 ， 构 成 新 的 搜索 路 径 <(6,4)， 
(2,3)，[(1,5),(4,7)]>; 计算 测试 点 (3.2,2.8) 与 父 节点 (2,3)、 右 侧 叶 节点 [(1,5),(4,7)] 之 间 的 距离 ， 得 到 
最 小 距离 为 1.22， 对 应 的 最 新 近邻 点 为 父 节点 (2,3)， 由 于 最 小 距离 1.22 小 于 外 圈 圆 的 半径 1.97， 
所 以 需要 重新 绘制 球体 ， 以 测试 点 (3.2,2.8) 为 中 心 、1.22 为 半径 的 圆 (如 图 11-8 中 所 示 的 内 圈 虚 线 
圆 ) ; 最后， 继续 原 路 返回 到 根 节点 (6.4)， 检 查 内 圈 虚 线 圆 是 否 与 分 割 线 x=6 相交 ， 从 图 中 可 知 两 
者 并 没有 发 生 相交 ， 故 无 须 对 根 节点 (6,4) 和 对 应 的 右 侧 子 孙 节 点 进行 搜索 ， 最 终结 束 回 流 ， 得 到 最 
终 的 近邻 点 为 (2,3)。 从 上 面 的 搜寻 过 程 来 看 ，KD 树 可 以 大 大 降低 搜寻 的 范围 ， 进 而 实现 KNN 算 
法 速度 的 提升 。 

尽管 KD 树 搜寻 法 相 比 于 暴力 搜寻 法 要 快 很 多 ， 但 是 该 方法 在 搜寻 分 布 不 均匀 的 数据 集 时 ， 
效率 会 下 降 很 多 ， 因 为 根据 节点 切 分 的 超 矩 形体 都 含有 “和 角 ”。 如 果 构 成 的 球体 与 “ 角 ” 相 交 ， 必 
然 会 使 搜寻 路 径 扩展 到 “ 角 ” 相 关 的 超 矩 形体 内 ， 从 而 增加 了 搜寻 的 时 间 。 为 了 使 读者 理解 “ 角 ” 
对 搜寻 速度 的 影响 ， 可 以 对 应 查看 图 11-9 所 示 的 说 明 。 









最 近邻 点 为 (9.5) 
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图 11-9 KD 树 搜索 过 程 中 “ 角 ” 的 影响 
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图 11-9 所 示 的 五 角 星 为 男 一 个 测试 点 (xi, yi)， 根 据 KD 树 自 项 向 下 的 搜寻 过 程 得 到 搜寻 路 径 
为 <(6,4), (10,3), [(9,5),(8,8)]>, 计算 测试 点 与 叶 节 点 中 (9,5) 和 (8,8) 之 间 的 距离 , 得 到 最 近邻 为 (9,5)、 
半径 为 -， 形 成 图 中 的 虚线 圆 。 原 路 返回 到 中 间 节 点 (10,3)， 虚 线 圆 并 没有 与 y=3 的 分 割 线 相 交 ， 而 
是 与 根 节点 (6,4) 对 应 的 分 割 线 x=6 发 生 了 相交 , 恰好 也 与 左下 方 矩形 的 右上 角 相 交 ， 按 照 KD 树 搜 
寻 步 又 ， 就 需要 从 对 应 的 矩形 中 搜寻 最 近邻 样本 点 ， 但 是 从 肉眼 来 看 ， 这 个 搜寻 过 程 其 实 是 没有 意 
义 的 ， 因 为 在 搜寻 路 径 中 已 经 获得 了 当前 最 近邻 点 (9,3)， 而 “ 角 ” 对 应 的 矩形 区 域 样本 与 测试 点 
(xpyi) 的 距离 均 超 过 r， 不 可 能 成 为 更 近 的 近邻 。 

所 以 ， 为 了 避免 这 种 情况 的 发 生 ， 提 高 KNN 模型 搜寻 最 近邻 样本 的 速度 ， 科 学 家 提出 了 
Ball-Tree 〈 球 树 ) 搜寻 法 。 而 且 ， 根 据 经 验 所 得 ， 当 数据 集中 的 变量 个 数 超过 20 时 ，KD 树 的 运 
行 效率 会 被 拉 低 。 


11.4.2 ” 球 树 搜寻 法 


球 树 搜寻 法 之 所 以 能 够 解决 KD 树 的 缺陷 ， 是 因为 球 树 将 KD 树 中 的 超 抵 形 体 换 成 了 超 球体 ， 
没有 了 “ 角 ”， 就 不 容易 产生 模 楼 两 可 的 区 域 。 对 比 球 树 的 构造 和 搜寻 过 程 ， 会 发 现 与 KD 树 的 思 
想 非 常 相似 ， 所 不 同 的 是 ， 球 树 的 最 优 搜寻 路 径 复杂 度 提高 了 ， 但 是 可 以 避免 很 多 无 谓 样 本 点 的 搜 
寻 。 

1. 球 树 的 构造 

不 同 的 超 球体 训 括 了 对 应 的 样本 点 ， 超 球体 就 相当 于 树 中 的 节点 ， 所 以 构造 球体 的 过 程 就 是 
构造 树 的 过 程 ， 关 键 点 就 是 球 心 的 寻找 和 半径 的 计算 。 有 关 球 树 的 构造 步骤 如 下 


(1) 首先 构建 一 个 超 球体 ， 这 个 超 球体 的 球 心 是 某 线段 的 中 点 ， 而 该 线段 就 是 球 内 所 有 训练 
样本 点 中 两 两 距离 最 远 的 线段 , 半径 就 是 最 远 距离 的 一 半 ， 从 而 得 到 的 超 球体 就 是 囊括 所 有 样本 点 
的 最 小 球体 。 

(2) 然后 从 超 球 体内 寻找 离 球 心 最 远 的 点 p， 接 着 寻找 离 点 pi 最 远 的 点 pa， 以 这 两 个 点 为 入 
心 ， 通 过 距离 的 计算 ， 将 剩余 的 样本 点 划分 到 对 应 的 秘 中 心 ， 从 而 得 到 两 个 数据 块 。 

(3) 最 后 重复 步骤 (1) ， 将 步骤 (2) 中 的 两 个 数据 块 构造 成 对 应 的 最 小 球体 ， 直 到 球体 无 
法 继续 划分 为 止 。 

从 上 面 的 步骤 可 知 ， 球 树 的 根 节点 就 是 囊括 所 有 训练 数据 集 的 最 小 超 球体 ， 根 节点 的 两 个 子 
节点 就 是 由 步骤 2) 中 两 个 数据 块 构成 的 最 小 超 球体 。 以 此 类 推 ， 可 以 不 停 地 将 数据 划分 到 对 应 
的 最 小 超 球 体 中 ， 最 终 形成 一 棵 球 树 。 

为 了 使 读者 理解 球 树 的 构造 ， 这 里 手工 绘制 一 个 球体 分 割 图 ， 如 图 11-10 所 示 。 

以 二 维 数据 为 例 ， 将 已 知 类 别 的 9 个 样本 点 按照 球 树 的 构造 步骤 得 到 如 左 图 所 示 的 分 割 。 黑 


节点 ， 对 应 的 最 小 圆 囊括 了 各 自 的 数据 块 ; 继续 划分 ， 得 到 4 个 叶子 节点 ， 用 图 中 的 密集 虚线 圈 表 
示 。 球 体 分 割 结束 后 得 到 对 应 的 球 树 ， 如 右 图 所 示 。 球 树 节点 中 的 数字 代表 了 褒 括 的 样本 量 。 
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图 11-10 球 树 的 构造 过 程 
2. 球 树 的 搜寻 
球 树 在 搜寻 最 近邻 样本 时 与 KD 树 非常 相似 ， 下 面 详细 介绍 球 树 在 搜寻 过 程 中 的 具体 步骤 : 


(1) 从 球 树 的 顶端 到 底 端 ， 寻 找 能 够 包含 未 知 类 别 样本 点 所 属 的 叶 节 点 ， 并 从 叶 节点 的 球体 
中 寻找 到 离 未 知 类 别 样本 点 最 近 的 点 ， 得 到 相应 的 最 近 距离 d。 

(2) 回流 到 另 一 支 的 叶 节 点 中 ， 此 时 不 再 比较 未 知 类 别 样本 点 与 叶 节 点 中 的 其 他 样本 点 之 间 
的 距离 ， 而 是 计算 未 知 类 别 样本 点 与 叶 节 点 对 应 的 球 心 距离 D。 

(3) 比较 距离 4、D 和 步骤 (2) 中叶 节点 球体 的 半径 r+， 如 果 D > d +7， 则 说 明 无 法 从 叶 节 
点 中 找到 离 未 知 类 别 样本 点 更 近 的 点 ; 如 果 D < d +7r, 则 需要 回流 到 上 一 层 父 节点 所 对 应 的 球体 ， 
并 从 球体 中 搜寻 更 近 的 样本 点 。 

(4) 重复 步骤 (2) 和 (3)， 直 到 回流 至 根 节 点 ， 最 终 搜 寻 到 离 未 知 类 别 样本 点 最 近 的 样本 。 


为 了 使 读者 理解 上 述 的 搜寻 过 程 ， 可 以 对 应 查看 如 图 11-11 的 说 明 。 











图 11-11 球 树 的 搜寻 过 程 


如 图 11-11 所 示 , 假设 图 中 的 五 角 星 代 表 未 知 类 别 样 本 点 , 通过 球 树 自 上 而 下 地 流 消 ， 最 终 流 
入 密集 虚线 圈 所 代表 的 叶 节 点 ， 并 从 叶 节 点 的 球体 内 找到 最 近 的 样本 ， 距 离 为 4; 回流 到 另 一 支 叶 
节点 所 代表 的 球体 ， 计 算 未 知 类 别 样本 点 与 球体 中 心 的 距离 D;， 从 图 11-11 中 可 知 ， 距 离 D 明 显 超 
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过 距离 d 与 球体 半径 r 的 总 和 ， 说 明 不 可 能 在 另 一 支 叶 节点 的 球体 内 发 现 更 近邻 的 样本 。 到 此 并 不 
意味 着 搜寻 的 结束 ， 还 需要 继续 回流 到 父 节点 和 根 节 点 做 相应 的 检查 和 搜寻 。 从 图 11-11 来 看 ， 最 
近邻 就 是 距离 4 所 对 应 的 样本 点 。 

从 球 树 搜寻 过 程 中 就 可 以 发 现 ， 搜 寻 最 近邻 样本 比较 的 是 D 和 d +7 之 间 的 关系 ， 所 以 在 兄弟 
节点 中 并 不 是 迭代 每 一 个 样本 点 的 距离 而 是 直接 计算 距离 D, 进而 可 以 减少 搜寻 的 次 数 , 提高 KNN 
算法 的 速度 。 





11.5 KNN 模型 的 应 用 


KNN 算法 是 一 个 非常 优秀 的 数据 挖掘 模型 ， 既 可 以 解决 离散 型 因 变 量 的 分 类 问题 ， 也 可 以 处 
理 连 续 型 因 变 量 的 预测 问题 ， 而 且 该 算法 对 数据 的 分 布 特征 没有 任何 要 求 。 在 本 节 的 实战 项 目 中 ， 
将 利用 该 算法 对 学 生 知识 的 掌握 程度 作 分 类 判别 ， 以 及 对 高 炉 发 电量 做 预测 分 析 。 

Python 中 的 sklearn 模块 提供 了 有 关 KNN 算法 实现 分 类 和 预测 的 功能 ， 该 功能 存在 于 子 模块 
neighbors 中 ， 对 于 分 类 问题 ， 需 要 调用 KNeighborsClassifier“ 类 ”， 而 对 于 预测 问题 ， 则 需要 调 
用 KNeighborsRegressor“ 类 ”。 首 先 ， 针 对 这 两 个 “类 ”的 语法 和 参数 含义 做 详细 描述 : 

neighbors.KNeighborsClassifier (n neighbors=5, weights='uniform', algorithm='auto', 


leaf size=30, p=2, metric='minkowski', 
metric params=None, n jobs=1) 


neighbors.KNeighborsRegressor(n neighbors=5, weights="'uniform', algorithm='auto', 

leaf_ size=30, p=2, metric='minkowski', 
metric params=None, n_jobs=1) 

®@ n_neighbors: 用 于 指定 近邻 样本 个 数 民 ， 默 认为 5。 

e@ “weights: 用 于 指定 近邻 样本 的 投票 权重 ， 默 认为 uniform'， 表 示 所 有 近邻 样本 的 投票 权重 一 
样 ; 如 果 为 'distance'， 则 表示 投票 权重 与 距离 成 反比 ， 即 近邻 样本 与 未 知 类 别 的 样本 点 距离 
越 远 ， 权 重 越 小 ， 反 之 ， 权 重 越 大 。 

ealgorithm: 用 于 指定 近邻 样本 的 搜寻 算法 ， 如 果 为 'ball tree'， 则 表示 使 用 球 树 搜寻 法 寻找 近 
邻 样本 ; 如 果 为 kd_tree'， 则 表示 使 用 KD 树 搜寻 法 寻找 近邻 样本 ; 如 果 为 'brute'， 则 表示 使 
用 暴力 搜寻 法 寻找 近邻 样本 。 默 认为 auto'， 表 示 KNN 算法 会 根据 数据 特征 自动 选择 最 佳 的 
搜寻 算法 。 

@ ”leaf size: 用 于 指定 球 树 或 KD 树叶 子 节点 所 包含 的 最 小 样本 量 ， 它 用 于 控制 树 的 生长 条 件 ， 
会 影响 树 的 查询 速度 ， 默 认为 30。 

@ metric: 用 于 指定 距离 的 度量 指标 ， 默 认为 闵可夫 斯 基 距 离 。 

p: 当 参 数 metric 为 闵可夫 斯 基 距 离 时 ，p=1， 表 示 计算 点 之 间 的 曼哈顿 距离 ; p=2， 表 示 计 

算 点 之 间 的 欧 氏 距离 ; 该 参数 的 默认 值 为 2。 

emetric_ params: 为 metric 参数 所 对 应 的 距离 指标 添加 关键 字 和 参数 。 

®@ _n_jobs: 用 于 设置 KNN 算法 并 行 计算 所 需 的 CPU 数量 ,默认 为 1 表示 仅 使 用 1 个 CPU 运行 
算法 ， 即 不 使 用 并 行 运算 功能 。 
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对 比 两 个 “类 ”的 语法 和 参数 ， 可 以 发 现 两 者 几乎 是 完全 一 样 的 ， 在 作者 看 来 ， 有 两 个 比较 
重要 的 参数 ， 它 们 是 n_neighbors 和 weights， 在 实际 的 项 目 应 用 中 需要 对 比 各 种 可 能 的 值 ， 并 从 中 
挑 出 理想 的 参数 值 。 为 了 将 KNN 算法 的 理论 知识 应 用 到 实战 中 ， 接 下 来 将 利用 这 两 个 “类 ”做 分 
类 和 预测 分 析 。 





11.5.1 分 类 问题 的 解决 


对 于 分 类 问题 的 解决 ， 将 使 用 Knowledge 数据 集 作为 演示 ， 该 数据 集 来 自 于 UCI 主页 
(http://archive.ics.uci.edu/ml/datasets.html)。 数 据 集 一 共 包 含 403 个 观测 和 6 个 变量 ， 首 先 预 览 一 
下 该 数据 集 的 前 几 行 信息 : 


# 导入 第 三 方 包 
import pandas as pd 





# 导入 数据 
Knowledge = pd.read excel(r'C:\Users\Administrator\Desktop\Knowledge.xlsx') 


# 返回 前 5 行 数据 
Knowledge.head () 


见 表 11-1。 

表 11-1 数据 的 前 5 行 预览 
|sre|scs| s™r |LPR [PEG |uNS 
olooo |ooo 000|ooo|oo0 |ver Low 











1|0.08 | 0.08 |0.10 |0.24 |0.90 | High 


aloos oos [oos [oz5loss [on 





3|0.10 |0.10 |0.15 |0.65 |0.30 | Middle 








4|008 |008 |oos|oss|o24 |Low 





如 表 11-1 所 示 ， 行 代表 每 一 个 被 观察 的 学 生 ， 前 5 列 分 别 为 学 生 在 目标 学 科 上 的 学 习 时 长 
(STG) 、 重 复 次 数 (SCG) 、 相 关 科目 的 学 习 时 长 (STR〉、 相 关 科 目的 考试 成 绩 (LPR) 和 目 
标 科目 的 考试 成 绩 (PEG) ， 这 5 个 指标 都 已 做 了 归 一 化 的 处 理 ; 最 后 一 列 是 学 生 对 知识 掌握 程度 
的 高 低 分 类 (UNS) ， 一 共 含有 四 种 不 同 的 值 ， 分 别 为 Very Low、Low、Middle 和 High。 接 下 
来 ， 利 用 该 数据 集 构建 KNN 算法 的 分 类 模型 。 

为 了 验证 模型 的 拟 合 效果 ， 需 要 预先 将 数据 集 拆 分 为 训练 集 和 测试 集 ， 训 练 集 用 来 构造 KNN 
模型 ， 测 试 集 用 来 评估 模型 的 拟 合 效果 : 

# 导入 第 三 方 模块 


from sklearn import model selection 





xX train, X test, y train, y test = model selection.train test split(Knowledge[predictors], 
Knowledge .UNS, 
test_size = 0.25, 
random state = 1234) 
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当 数 据 一 切 就 绪 以 后 ， 按 理应 该 构造 KNN 的 分 类 模型 ， 但 是 前 提 得 指定 一 个 合理 的 近邻 个 数 
k， 因 为 模型 非常 容易 受到 该 值 的 影响 。 虽然 KNeighborsClassifier“ 类 ”提供 了 默认 的 近邻 个 数 5， 
但 并 不 代表 该 值 就 是 合理 的 ， 所 以 需要 利用 多 重 交叉 验证 的 方法 ， 获 取 符 合 数据 的 理想 上 值 : 

# 导入 第 三 方 模块 


import numpy as np 
from sklearn import neighbors 
import matplotlib.pyplot as plt 


# 设置 待 测试 的 不 同 k 值 
K = np.arange (1,np.ceil(np.1og2 (Knowledge.shape[0]))) 
# 构建 空 的 列表 ， 用 于 存储 平均 准确 率 
accuracy = [] 
for k in K: 
## 使 用 10 重 交叉 验证 的 方法 ， 比 对 每 一 个 k 值 下 KNN 模型 的 预测 准确 率 
Cv_result =model selection.cross val score (neighbors.KNeighborsClassifier(n neighbors= 
k, weights = 'distance'), XxX train, y train, cv = 10, scoring='accuracy') 
accuracy.append (cv_ result .mean () ) 


# 从 个 平均 准确 率 中 挑选 出 最 大 值 所 对 应 的 下 标 

arg max = np.array (accuracy) .argmax() 

# 中 文 和 负 号 的 正常 显示 

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 

# 绘制 不 同 K 值 与 平均 预测 准确 率 之 间 的 折线 图 

plt.plot (K, accuracy) 

# 添加 点 图 

plt.scatter (K, accuracy) 

# 添加 文字 说 明 

plt.text (K[arg_ max]，accuracy[arg_max] ，' 最 佳 k 值 为 6s' %int(K[arg max])) 
# 显示 图 形 

plt.show() 


见 图 11-12。 
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图 11-12 KNN 算法 中 最 佳 K 值 的 选择 


如 图 11-12 所 示 ， 经 过 10 重 交叉 验证 的 运算 ， 确 定 最 佳 的 近邻 个 数 为 6 个 。 接 下 来 ， 利 用 这 
个 最 佳 的 k 值 对 训练 数据 集 进行 建 模 ， 并 将 建 好 的 模型 应 用 在 测试 数据 集 上 : 
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# 重新 构建 模型 ， 并 将 最 佳 的 近邻 个 数 设置 为 6 

knn class = neighbors.KNeighborsClassifier(n_neighbors = 6, weights = 'distance') 
# 模型 拟 合 

knn class.fit (x train, y train) 

# 模型 在 测试 数据 集 上 的 预测 

predict = knn class.predict (X test) 

# 构建 混淆 矩阵 

cm = pd.crosstab (predict,y test) 

cm 


见 表 11-2。 


表 11-2 ”预测 结果 的 混淆 矩阵 











如 表 11-2 所 示 ， 返 回 了 模型 在 测试 集 上 的 混淆 矩阵 ， 单 从 主 对 角 线 来 看 ， 绝 大 多 数 的 样本 都 
被 正确 分 类 。 由 于 人 们 对 表格 数据 的 敏感 度 没有 图 形 高 ,因此 这 里 将 混淆 矩阵 绘制 到 热力 图 中 , 便 
于 查看 其 中 的 规律 : 

# 导入 第 三 方 模块 


import seaborn as sns 


# 将 混淆 矩阵 构造 成 数据 框 ， 并 加 上 字段 名 和 行 名称 ， 用 于 行 或 列 的 含义 说 明 

cm = pd.DataFrame(cm, columns = ['High','Low','Middle','Very Low'], 
index = ['High', 'Low', 'Middle','Very Low']) 

# 绘制 热力 图 

sns.heatmap (cm, annot = True,cmap = 'GnBu') 

# 添加 x 轴 和 Y 轴 的 标签 

plt.xlabel(' Real Lable') 

plt.ylabel(' Predict Lable') 





# 图 形 显示 
plt.show() 
见 图 11-13。 
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图 11-13 ”混淆 矩阵 的 可 视 化 展现 
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如 图 11-13 所 示 ， 热 力图 中 的 每 一 行 代表 真实 的 样本 类 别 , 每 一 列 代表 预测 的 样本 类 别 ， 区 块 
颜色 越 深 对 应 的 数值 越 高 。 很 明显 ， 主 对 角 线 上 的 颜色 都 是 比较 深 的 , 说 明 绝 大 多 数 样 本 是 被 正确 
分 类 的 。 以 图 中 的 第 一 列 〈High) 为 例 ， 实 际 为 High 的 学 生 有 30 个 ， 预 测 为 High 的 学 生 为 29 
个 ， 说 明 High 类 别 的 覆盖 率 为 29/30， 同 理 也 可 查看 其 他 列 的 预测 覆盖 率 。 如 果 读 者 想 根据 如 上 
的 混淆 矩阵 ， 得 到 模型 在 测试 集 上 的 预测 准确 率 ， 可 以 输入 下 方 的 代码 : 

# 导入 第 三 方 模块 


from sklearn import metrics 





# 模型 整体 的 预测 准确 率 


metrics.scorer.accuracy score(y_ test, predict) 


out: 
0.91089108910891092 


如 上 结果 所 示 ， 模 型 的 预测 准确 率 为 91.09%。 准 确 率 的 计算 公式 为 : 混淆 矩阵 中 主 对 角 线 数 
字 之 和 与 所 有 数字 之 和 的 商 。 遗 憾 的 是 ， 该 指标 只 能 衡量 模型 的 整体 预测 效果 , 却 无 法 对 比 每 个 类 
别 的 预测 精度 、 覆 盖 率 等 信息 。 如 需 计算 各 类 别 的 预测 效果 ， 可 以 使 用 下 方 的 代码 : 


# 分 类 模型 的 评估 报告 
Print (metrics.classification reportl(y test, predict)) 


out: 
precision recall fl-score support 
High 1.00 0.97 0.98 30 
Low 0.81 1.00 0.89 34 
Middle 0.96 0.88 0.92 26 
Very Low 1.00 0.55 0.71 六 
avg / total 0.93 0.91 0.91 101 


如 上 结果 所 示 ， 前 四 行 代表 因 变 量 y 中 的 各 个 类 别 值 ， 最 后 一 行为 各 指标 的 综合 水 平 ， 第 一 列 
precision 表示 模型 的 预测 精度 ， 计 算 公式 为 “预测 正确 的 类 别 个 数 /该 类 别 预测 的 所 有 个 数 ”; 第 
二 列 recall 表示 模型 的 预测 覆盖 率 ， 计 算 公 式 为 “预测 正确 的 类 别 个 数 /该 类 别 实际 的 所 有 个 数 ”; 
第 三 列 fl-score 是 对 precision 和 recall 的 加 权 结 果 ; 第 四 列 为 类 别 实际 的 样本 个 数 。 


11.5.2 ”预测 问题 的 解决 


对 于 预测 问题 的 实战 ， 将 使 用 CCPP 数据 集 作为 演示 ， 该 数据 集 涉及 高 炉 煤 气 联合 循环 发 电 
的 几 个 重要 指标 ， 其 同样 来 自 于 UCI 网 站 。 首 先 通过 如 下 代码 获知 各 变量 的 含义 以 及 数据 集 的 规 
模 : 

# 读 入 数据 

ccpp = pd.read excell(r'C:\Users\Administrator\Desktop\CCPP.xlsx') 


ccpp.head() 
ccpp. shape 








out: 
(9568, 5) 


见 表 11-3。 
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表 11-3 数据 的 前 5 行 预览 


AT |V AP RH |PE 








0|14.96 |41.76 | 1024.07 | 73.17 | 463.26 





1|25.18 | 62.96 | 1020.04 | 59.08 | 444.37 





2|5.11 |39.40 |1012.16 | 92.14 | 488.56 





3|20.86 |57.32 | 1010.24 |76.64 | 446.48 





4|10.82 |37.50 | 1009.23 | 96.62 | 473.90 





如 表 11-3 所 示 ， 前 4 个 变量 为 自 变量 ，AT 表示 高 炉 的 温度 、V 表示 炉 内 的 压力 、AP 表示 高 
炉 的 相对 湿度 、RH 表示 高 炉 的 排 气 量 ， 最 后 一 列 为 连续 型 的 因 变 量 ， 表 示 高 炉 的 发 电量 。 该 数据 
集 一 共 包 含 9568 条 观测 ， 由 于 4 个 自 变量 的 量 纲 不 一 致 ， 因 此 在 使 用 KNN 模型 进行 预测 之 前 ， 
需要 对 其 做 标准 化 处 理 : 

# 导入 第 三 方 包 


from sklearn.preprocessing import minmax scale 








# 对 所 有 自 变量 数据 做 标准 化 处 理 
Predictors = ccpp.columns[:-1] 
X = minmax_scale (ccpp [Predictors]) 


同 理 ， 也 需要 将 数据 集 拆 分 为 两 部 分 ， 分 别 用 于 用 户 模型 的 构建 和 模型 的 测试 。 使 用 训练 集 
构建 KNN 模型 之 前 ， 必 须 指定 一 个 合理 的 近邻 个 数 K 值 。 这 里 仍然 使 用 10 重 交叉 验证 的 方法 ， 所 
不 同 的 是 ， 在 验证 过 程 中 ， 模 型 好 坏 的 衡量 指标 不 再 是 准确 率 ， 而 是 MSE ( 均 方 误差 ) : 


# 设置 待 测试 的 不 同 k 值 

K = np.arange (l,np.ceil (np.1og2 (ccpp.shape [0]))) 

# 构建 空 的 列表 ， 用 于 存储 平均 MSE 

mse = [] 

for k in K: 
# 使 用 10 重 交 叉 验证 的 方法 ， 比 对 每 一 个 k 值 下 KNN 模型 的 计算 MSE 
Cv_result = model_selection.cross_val_score (neighbors.KNeighborsRegressor(n_neighbors = 

k, weights = "distance')，X train, y train, cv = 10, scoring='neg mean squared error') 

mse.append((-l*cv_result) .mean()) 


# 从 Kk 个 平均 MSE 中 挑选 出 最 小 值 所 对 应 的 下 标 
arg min = np.array (mse) .argmin() 

# 绘制 不 同 K 值 与 平均 MSE 之 间 的 折线 图 
Plt.plot (K, mse) 

# 添加 点 图 

plt.scatter (K, mse) 

# 添加 文字 说 明 

plt.text (K[arg min], mse[arg min] + 0.5,' 最 佳 k 值 为 $s' $int(K[arg min])) 
# 显示 图 形 

plt.show() 

见 图 11-14。 
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图 11-14 KNN 算法 中 最 佳 K 值 的 选择 


如 图 11-14 所 示 , 经 过 10 重 交叉 验证 ,得 到 最 佳 的 近邻 个 数 为 7。 接 下 来 ,利用 这 个 最 佳 的 k 值 对 
训练 数据 集 进行 建 模 ， 并 将 建 好 的 模型 应 用 在 测试 数据 集 上 : 
# 重新 构建 模型 ， 并 将 最 佳 的 近邻 个 数 设置 为 7 


knn reg = neighbors.KNeighborsRegressor(n neighbors = 7, weights = 'distance') 
# 模型 拟 合 

knn reg.fit(X train, y train) 

# 模型 在 测试 集 上 的 预测 

predict = knn reg.predict (Xx test) 

# 计算 MsE 值 


metrics.mean squared errorl(y test, predict) 





out: 
12.814094947334913 


如 上 结果 所 示 ， 对 于 连续 因 变量 的 预测 问题 来 说 ， 通 常 使 用 MSE 或 RMSE ( 均 方 误差 根 ) 评 
估 模 型 好 坏 ， 该 值 越 小 ， 说 明 预 测 值 与 真实 值 越 接近 。 单 看 上 面 计算 所 得 的 12.81 可 能 没有 什么 感 
觉 ， 这 里 可 以 对 比 测试 集中 的 真实 数据 和 预测 数据 ， 查 看 两 者 之 间 的 差异 ， 不 妨 取出 各 自 的 前 10 
行 用 于 比较 : 

# 对 比 真实 值 和 实际 值 


pd.DataFrame({'Real':y test,'Predict':predict}, columns=['Real','Predict']).head(10) 





out: 








见 表 11-4。 
表 11-4 实际 值 与 预测 值 的 对 比 
实际 值 | 435.68 | 442.90 [44901 | 449.75 [45520 [a53.49 [479.14 [446.71 | 42980 | 47440 
预测 值 | 437.68 443.10 | 448.76 | 445.56 | 453.01 455.46 | 476.54 | 445.57 | 430.82 | 47440 


























通过 对 比 发 现 ，KNN 模型 在 测试 集 上 的 预测 值 与 实际 值 非常 接近 ， 可 以 认为 模型 的 拟 合 效果 
非常 理想 。 
正如 前 文 所 说 ，KNN 算法 与 第 10 章 所 介绍 的 决策 树 非常 类 似 ， 在 建 模 时 都 对 数据 没有 什么 
特殊 要 求 ， 这 里 不 妨 对 比 两 个 模型 在 CCPP 数据 集 上 的 表现 : 
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# 导入 第 三 方 模块 


from sklearn import tree 


# 预 设 各 参数 的 不 同 选项 值 
max_depth = [19,21,23,25, 
min samples split = [2,4, 
min samples leaf = [2,4,8 
Parameters = {'max depth' 
"min_sample 


27] 

6,8] 

O12 

:max depth, 'min samples split':min samples split, 
s_leaf':min samples leaf} 


# 网 格 搜索 法 ， 测 试 不 同 的 参数 值 


grid dtreg = model selection.GridSearchCV (estimator = tree.DecisionTreeRegressor(), 


# 模型 拟 合 


Param grid = parameters, cv=10) 


grid dtreg.fit(X train, y train) 


# 返回 最 佳 组 合 的 参数 值 
grid dtreg.best params 


out: 


{'max depth': 21, 'min_ samples_leaf': 10, 'min samples_ split': 6} 


由 于 决策 树 涉及 的 预 剪 枝 参数 比较 多 ， 故 选择 网 格 搜索 法 确定 最 佳 的 参数 ， 同 样 经 过 10 重 交 
叉 验证 后 ,得 到 最 佳 的 参数 组 合 。 接 下 来 利用 如 上 结果 所 示 的 参数 构造 预测 回归 树 ， 并 计算 测试 集 


上 的 MSE 值 : 
# 构建 用 于 回归 的 决策 树 


CART Reg = tree.DecisionTreeRegressor(max depth = 21, min samples leaf = 10, 


# 回归 树 拟 合 


min samples split = 6) 


CART Reg.fit(X train, y train) 


# 模型 在 测试 集 上 的 预测 


Pred = CART Reg.predict(X test) 


# 计算 衡量 模型 好 坏 的 MSE 值 


metrics.mean squared errorl(y test, pred) 


out: 
16.143720228148151 


如 上 结果 所 示 ， 利 用 预测 


回归 树 模型 对 CCPP 数据 集 进行 建 模 ， 在 测试 集 上 计算 得 到 的 MSE 





值 为 16.14。 该 值 要 大 于 KNN 模型 的 MSE 值 ， 说 明 决 策 树 模型 在 CCPP 数据 集 上 的 拟 合 效果 并 没 


有 KNN 模型 理想 。 


11.6 “本章 小 结 


本 章 首 次 介绍 了 “惰性 ”学 习 算法 一 一 K 近邻 算法 (KNN) ， 该 算法 在 仅 有 的 训练 数据 集 下 


并 不 会 计算 得 到 一 个 分 类 器 ,上 


节 。 该 模型 与 决策 树 模型 类 似 ， 


4 有 将 测试 数据 集运 用 到 分 类 器 中 才 会 同时 进入 模型 的 训练 和 测试 环 


都 是 使 用 投票 原则 ， 对 于 分 类 问题 ， 近 邻 样本 中 票数 最 高 的 类 别 作 


为 未 知 样本 的 判断 ; 对 于 预测 问题 , 则 将 近邻 样本 的 均值 用 作 未 知 样本 的 预测 。 本 章 的 主要 内 容 包 


含 了 KNN 算法 的 理论 思想 、 


最 近邻 k 值 的 选择 、 几 种 常见 的 相似 度 衡量 指标 、 常 用 的 近邻 样本 搜 





252 | 从 零 开 始 学 Python 数据 分 析 与 挖掘 








寻 方 法 以 及 KNN 算 法 在 两 类 数据 中 的 应 用 。 通 过 本 章 内 容 的 学 习 , 读 者 可 将 前 几 章 内 容 结合 起 来 ， 
对 比 不 同 算法 之 间 的 差异 ， 从 而 在 实际 的 工作 中 选择 最 合理 的 模型 解决 分 类 或 预测 问题 。 
为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 。 
Python 模块 ”| Python 函数 或 方法 函数 说 明 
read excel 读 取 Excel 文件 的 函数 





























pandas head 基于 数据 框 返 回 前 几 行 数据 的 “方法 ” 
columns 返回 数据 框 的 字段 名 称 
numpy argmax、argmin 返回 数组 中 最 大 值 与 最 小 值 所 对 应 下 标的 “方法 ” 
plot 绘制 折线 图 的 函数 
scatter 绘制 散 点 图 的 函数 
matplotlib text 给 图 形 添加 文本 的 函数 
Show 显示 图 形 的 函数 
将 数据 集 拆 分 为 训练 集 和 测试 集 的 函数 
本 基于 “类 ”的 模型 预测 “方法 ” 


seabom 绘制 热力 图 的 函数 





朴素 贝 叶 斯 模型 


朴素 贝 叶 斯 模型 同样 是 流行 的 十 大 挖掘 算法 之 一 ， 属 于 有 监督 的 学 习 算法 ， 是 专门 用 于 解决 
分 类 问题 的 模型 , 而 且 该 模型 的 数学 理论 并 不 是 很 复杂 , 只 需要 具备 概率 论 与 数理 统计 的 部 分 知识 
点 即 可 。 该 分 类 器 的 实现 思想 非常 简单 ， 即 通过 已 知 类 别 的 训练 数据 集 ,计算 样本 的 先 验 概率 ， 然 
后 利用 贝 叶 斯 概率 公式 测算 未 知 类 别 样本 属于 某 个 类 别 的 后 验 概率 , 最终 以 最 大 后 验 概率 所 对 应 的 
类 别 作为 样本 的 预测 值 。 

朴素 贝 叶 斯 模型 在 对 未 知 类 别 的 样本 进行 预测 时 具有 几 大 优点 ， 首 先 算法 在 运算 过 程 中 简单 
而 高 效 ; 其 次 算法 拥有 古典 概率 的 理论 支撑 ， 分 类 效率 稳定 ; 最 后 算法 对 缺失 数据 和 异常 数据 不 大 
敏感 。 同 时 缺点 也 是 存在 的 ,例如 模型 的 判断 结果 依 束 于 先 验 概率 ， 所 以 分 类 结果 存在 一 定 的 错误 
率 ， 对 输入 的 自 变量 x 要 求 具有 相同 的 特征 如 变量 均 为 数值 型 或 离散 型 或 0-1 型 ) ， 模 型 的 前 提 
假设 在 实际 应 用 中 很 难 满足 等 。 

相信 读者 在 学 习 数 据 挖掘 相关 知识 的 过 程 中 一 定 听 过 垃圾 邮箱 识别 的 经 典 案例 ， 它 就 是 通过 
朴素 贝 叶 斯 分 类 器 实现 的 。 除 此 之 外 ,朴素 贝 叶 斯 分 类 器 还 有 其 他 的 应 用 ， 常 见 的 如 电子 设备 中 的 
手 体 字 识别 、 广 告 技术 中 的 推荐 系统 、 医 疗 健康 中 的 病情 诊断 、 互 联网 金融 中 的 欺诈 识别 等 

接 下 来 ， 本 章 将 详细 介绍 朴素 贝 叶 斯 分 类 模型 相关 的 知识 点 ， 希 望 读者 在 学 完 本 章 内 容 后 可 
以 掌握 如 下 几 方面 的 要 点 : 

。 梓 素 贝 叶 斯 分 类 器 的 理论 知识 

。 几 种 数据 类 型 下 的 贝 叶 斯 模型 ; 

。 贝 叶 斯 分 类 器 的 应 用 实战 。 





12.1 朴素 贝 叶 斯 理论 基础 


在 介绍 如 何 使 用 贝 叶 斯 概率 公式 计算 后 验 概率 之 前 ， 先 回顾 一 下 概率 论 与 数理 统计 中 的 条 件 
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概率 和 全 概率 公式 : 
P(AB) 
P(BIA) = TO 
如 上 等 式 为 条 件 概率 的 计算 公式 , 表示 在 已 知事 件 4 的 情况 下 事件 B 发 生 的 概率 , 其 中 P(4B) 表 
示 事 件 4 与 事件 B 同 时 发 生 的 概率 。 所 以 ， 根 据 条 件 概率 公式 得 到 概率 的 乘法 公式 : P(4B) = 
P(A)P(BIA) = P(B)PC41B)。 


PCO= > PB) = 》PCBDPUIBD 
i=1 i=1 


如 上 等 式 为 全 概率 公式 , 其 中 事件 B1, Bz,…, Bn 构成 了 一 个 完备 的 事件 组 , 并 且 每 一 个 P(Bi) 均 
大 于 0。 该 公式 表示 ， 对 于 任意 的 一 个 事件 4 来 说 ， 都 可 以 表示 成 n 个 完备 事件 组 与 其 乘积 的 和 。 

在 具备 上 述 的 基础 知识 之 后 ， 再 来 看 看 贝 叶 斯 公式 。 如 前 文 所 说 ， 贝 叶 斯 分 类 器 的 核心 就 是 
在 已 知 X 的 情况 下 ， 计 算 样本 属于 某 个 类 别 的 概率 ， 故 这 个 条 件 概率 的 计算 可 以 表示 为 : 
P(CiX) P(Ci)P(XIGi) 
PC) Fe Pc) POXICD) 

其 中 ，Ci 表 示 样 本 所 属 的 某 个 类 别 。 假 设 数据 集 的 因 变 量 y 一 共 包含 k 个 不 同 的 类 别 ， 故 根据 
全 概率 公式 ,可 以 将 上 式 中 的 分 母 表示 成 Fk.1P(Ci) P(X|Ci); 再 根据 概率 的 乘法 公式 ， 可 以 将 上 式 
中 的 分 子 重 新 改写 为 P(Ci)P(X|Ci)。 对 于 上 面 的 条 件 概 率 公式 而 言 ， 样 本 最 终 属于 哪个 类 别 G:， 应 
该 将 计算 所 得 的 最 大 概率 值 P(Ci|X) 对 应 的 类 别 作 为 样本 的 最 终 分 类 ， 所 以 上 式 可 以 表示 为 : 

Y=100 = PCG = romers PEY PCE 

如 上 公式 所 示 ， 对 于 已 知 的 K， 朴 素 贝 叶 斯 分 类 器 就 是 计算 样本 在 各 分 类 中 的 最 大 概率 值 。 接 
下 来 详细 拆 解 公式 中 的 每 一 个 部 分 ， 为 获得 条 件 概 率 的 最 大 值 ， 寻 找 最 终 的 影响 因素 。 分 母 
P(X) = 2 P(CD) P(X|Gi) 是 一 个 常量 ， 它 与 样本 属于 哪个 类 别 没有 直接 关系 ， 所 以 计算 P(Ci|X) 的 
最 大 值 就 转换 成 了 计算 分 子 的 最 大 值 ， 即 argmax P(Ci)P(X|Ci); 如 果 分 子 中 的 P(Gi) 项 未 知 的 话 ， 
一 般 会 假设 每 个 类 别 出 现 的 概率 相等 , 只 需 计算 P(X|Ci) 的 最 大 值 , 然而 在 绝 大 多 数 情况 下 , P(CD) 是 
已 知 的 ， 它 以 训练 数据 集中 类 别 Ci 的 频率 作为 先 验 概率 ， 可 以 表示 为 Nc,/N。 

所 以 ,现在 的 主要 任务 就 是 计算 P(X|Ci) 的 值 ， 即 已 知 某 个 类 别 的 情况 下 自 变量 X 为 某 种 值 的 
概率 。 假 设 数 据 集 一 共 包 含 p 个 自 变量 ， 则 X 可 以 表示 成 (x1,xz,…,xp)， 进 而 条 件 概率 P(X|Ci) 可 以 
表示 为 : 





P(CilX) = 





PCXICD = P(x1,x2,… ,xplCi) 

很 显然 ， 条 件 联合 概率 值 的 计算 还 是 比较 复杂 的 ， 尤 其 是 当 数 据 集 的 自 变量 个 数 非常 多 的 时 
候 。 为 了 使 分 类 器 在 计算 过 程 中 提高 速度 ， 提 出 了 一 个 假设 前 提 ， 即 自 变 量 是 条 件 独立 的 〈 自 变量 
之 间 不 存在 相关 性 ) ， 所 以 上 面 的 计算 公式 可 以 重新 改写 为 : 

PCXKICD = P(xzuxz …,xplCi = P(xi|C)P (x21C0) *… P(xplCi) 

如 上 式 所 示 ， 将 条 件 联 合 概率 转换 成 各 条 件 概 率 的 乘积 ， 进 而 可 以 大 大 降低 概率 值 P(X|Ci) 的 
运算 时 长 。 但 问题 是 , 在 很 多 实际 项 目的 数据 集中 ， 很 难保 证 自 变 量 之 间 满 足 独 立 的 假设 条 件 。 根 
据 这 条 假设 ,可 以 得 到 一 般 性 的 结论 , 即 自 变量 之 间 的 独立 性 越 强 , 贝 叶 斯 分 类 器 的 效果 就 会 越 好 ; 
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如 果 自 变量 之 间 存 在 相关 性 ， 就 会 在 一 定 程度 提高 贝 叶 斯 分 类 器 的 错误 率 ， 但 通常 情况 下 ， 贝 叶 斯 
分 类 器 的 效果 不 会 低 于 决策 树 。 

接 下 来 的 章节 将 介绍 如 何 计算 P(Ci)P(xi|Ci)P(xz|Ci)…P(xp1Gi) 的 最 大 概率 值 ， 从 而 实现 一 个 
未 知 类 别 样本 的 预测 。 


12.2” 几 种 贝 叶 斯 模型 


自 变量 X 的 数据 类 型 可 以 是 连续 的 数值 型 ， 也 可 以 是 离散 的 字符 型 ， 或 者 是 仅 含有 0-1 两 种 值 
的 二 元 类 型 。 通 常会 根据 不 同 的 数据 类 型 选择 不 同 的 贝 叶 斯 分 类 器 ， 例 如 高 斯 贝 叶 斯 分 类 器 、 多 项 
式 贝 叶 斯 分 类 器 和 伯 努 利 贝 叶 斯 分 类 器 ， 下 面 将 结合 案例 详细 介绍 这 几 种 分 类 器 的 使 用 方法 。 


12.2.1 高 斯 贝 叶 斯 分 类 器 


如 果 数 据 集中 的 自 变量 X 均 为 连续 的 数值 型 , 则 在 计算 P(X|Ci) 时 会 假设 自 变量 X 服 从 高 斯 正 态 
分 布 ， 所 以 自 变量 X 的 条 件 概率 可 以 表示 成 : 


2 
1 和 一 Ai 
"I 和 Se ) 
ji 


其 中 ， 罗 表示 第 /个 自 变量 的 取 值 ，pj; 为 训练 数据 集中 自 变量 属于 类 别 Ci 的 均值 ，6; 为 训练 
数据 集中 自 变量 wy 属于 类 别 Ci 的 标准 差 。 所 以 ， 在 已 知 均值 jj; 和 标准 差 oj; 时 ,就 可 以 利用 如 上 的 公 
式 计算 自 变量 %y 取 某 种 值 的 概率 。 

为 了 使 读者 理解 P(xj|Ci) 的 计算 过 程 ， 这 里 虚拟 一 个 数据 集 ， 并 通过 手工 的 方式 计算 某 个 新 样 
本 属于 各 类 别 的 概率 值 。 

如 表 12-1 所 示 ， 假 设 某 金融 公司 是 否 愿 意 给 客户 放贷 会 优先 考虑 两 个 因素 ， 分 别 是 年 龄 和 收 
入 。 现 在 根据 已 知 的 数据 信息 考察 一 位 新 客户 ， 他 的 年 龄 为 24 岁 ， 并 且 收 入 为 8500 元 ， 请 问 该 公 
司 是 否 愿 意 给 客户 放贷 ? 手工 计算 P(Ci|X) 的 步骤 如 下 : 


表 12-1 适合 高 斯 贝 叶 斯 的 数据 类 型 


Age Income Loan 
23 8000 1 














27 12000 1 
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(1) 因 变 量 各 类 别 频 率 
Plloan = 0) = 5/10 = 0.5 
P(ioan = 1) = 5/10 = 0.5 
(2) 均值 
Hageo = 21.40 Hages = 29.8 
Hincomeo = 5900 Hincome! = 10500 
(3) 标准 差 
OAgeo = 2.42 aagel = 8.38 
Omcomeo = 734.85 Gincome12576.81 
(4) 单 变量 条 件 概 率 


24 一 21.4)2 
P(Age = 24|loan = 0) = ) ) = 0.0926 


1 
Vx242 7 (- 2 x 2.427 
(24—29.8)7) _ ©00375 

eT 2x83 /™ 

1 ( (8500 一 oe 
一 一 | 一 一 一 一 
Vx73485 人 2 x 734.852 

= 1.0384 x 10-6 
E (8500 — | 

Vx257681 *?\ 2x2576.817 


=1.1456 x 10™4 


P(Age = 24|loan = 1) = 


P(Income = 8500|loan = 0) = 


P(Income = 8500|loan = 1) = 


(5) 贝 叶 斯 后 验 概率 
Pl(loan = 0|Age = 24, Income = 8500) 
= P(loan = 0) x P(Age = 24|lloan = 0) x P(Income = 8500|loan = 0) 
= 0.5 x 0.0926 x 1.0384 x 10-5 = 4.8079 x 10-8 
Pl(loan = 1|Age = 24, Income = 8500) 
= P(loan= 1)x P(Age = 24|lloan = 1) x P(Income = 8500|loan = 1) 
= 0.5 x 0.0375 x 1.1456 x 10-4 = 2.1479 x 10-6 
经 过 上 面 的 计算 可 知 ， 当 客户 的 年 龄 为 24 岁 ， 并且 收入 为 8500 时 ， 被 预测 为 不 放贷 的 概率 
是 4.8079 x 10-8， 放 贷 的 概率 为 2.1479 x 10-6， 所 以 根据 argmax P(Ci)P(X|Ci) 的 原则 ， 最 终 该 金 
融 公司 决定 给 客户 放贷 。 
高 斯 贝 叶 斯 分 类 器 的 计算 过 程 还 是 比较 简单 的 ， 其 关键 的 核心 是 假设 数值 型 变量 服从 正 态 分 
布 ， 如 果实 际 数据 近似 服从 正 态 分 布 ， 分 类 结果 会 更 加 准确 。skleam 模块 提供 了 实现 该 分 类 器 的 
计算 功能 ， 它 就 是 naive_bayes 子 模 块 中 的 GaussianNB 类 。 首 先 介 绍 一 下 该 “类 ”的 语法 和 参数 
含义 : 
GaussianNB (priors=None) 


priors: 用 于 指定 因 变 量 各 类 别 的 先 验 概率 ， 默 认 以 数据 集中 的 类 别 频率 作为 先 验 概率 。 


由 于 该 “类 ” 仅 包含 一 个 参数 ， 且 参数 的 默认 值 是 以 各 类 别 的 频率 作为 先 验 概 率 ， 因 此 在 调 
用 GaussianNB 类 构造 高 斯 贝 叶 斯 分 类 器 时 ， 可 以 不 传递 任何 参数 值 ， 接 下 来 利用 该 分 类 器 实现 面 
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部 皮肤 区 分 的 判别 。 


12.2.2 ”高 斯 贝 叶 斯 分 类 器 的 应 用 


面部 皮肤 区 分 数据 集 来 自 于 UCI 网 站 , 该 数据 集 含 有 两 个 部 分 , 一 部 分 为 人 类 面部 皮肤 数据 ， 


该 部 分 数据 是 由 不 同 种 族 、 年 龄 和 性 别人 群 的 图 片 转换 而 成 的 ， 男 一 部 分 为 非 人 类 面部 皮肤 数据 。 
两 个 部 分 的 数据 集 一 共 包含 245 057 条 样本 和 4 个 变量 , 其 中 用 于 识别 样本 是 否 为 人 类 面部 皮肤 的 


因 





因 





素 是 图 片 中 的 三 原色 R、G、B， 它 们 的 值 均 落 在 0~255; 因 变 量 为 二 分 类 变量 ， 表 示 样 本 在 对 


应 的 R、G、B 值 下 是 否 为 人 类 面部 皮肤 ， 其 中 1 表示 人 类 面部 皮肤 ，2 表示 非 人 类 面部 皮肤 。 


通常 情况 下 ， 研 究 人 员 会 对 样本 是 否 为 人 类 面部 皮肤 更 加 感 兴趣 ， 所 以 需要 将 原始 数据 集中 
变量 为 1 的 值 设 置 为 正 例 、 因 变量 为 2 的 值 设置 为 负 例 ， 代 码 如 下 : 
# 导入 第 三 方 包 


import pandas as pd 


# 读 入 数据 

skin = pd.read excel(r'C:\Users\Administrator\Desktop\Skin Segment.xlsx') 
# 设置 正 例 和 负 例 

skin.y = skin.y.map({2:0,1:1}) 

skin.y.value counts() 


out: 
0 194198 
1 50859 


如 上 结果 所 示 ， 因 变量 0 表示 负 例 ， 说 明 样本 为 非 人 类 面部 皮肤 ， 一 共 包 含 194 198 个 观测 ; 


因 变 量 1 表示 正 例 ， 说 明 样 本 为 人 类 面部 皮肤 ， 一 共 包含 50 859 个 观测 ， 因 变量 值 为 0 和 1 之 间 
的 比例 为 5:1。 接 下 来 将 该 数据 集 拆 分 为 训练 集 和 测试 集 ， 分 别 用 于 模型 的 构建 和 模型 的 评估 ， 代 
人 码 如 下 : 

# 导入 第 三 方 模块 


from sklearn import model selection 


# 样本 拆 分 

XxX train,X test,y train,y test = model selection.train test split(skin.iloc[:,:3], skin.y, 
test size = 0.25, random state=1234) 

# 调用 高 斯 朴素 贝 叶 斯 分 类 器 的 “类 ” 

gnb = naive bayes.GaussianNB() 

# 模型 拟 合 

gnb.fit (Xx train, y_train) 

# 模型 在 测试 数据 集 上 的 预测 

gnb_pred = gnb.predict (X_test) 

# 各 类 别 的 预测 数量 

pd.Series(gnb pred) .value_counts() 


out: 
0 50630 
10635 


如 上 结果 所 示 ， 通 过 构建 高 斯 朴素 贝 叶 斯 分 类 器 ， 实 现 测试 数据 集 上 的 预测 ， 经 统计 ， 预 测 
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为 负 例 的 一 共有 50 630 条 样本 、 预 测 为 正 例 的 一 共有 10 635 条 样本 。 为 检验 模型 在 测试 数据 集 上 
的 预测 效果 ， 需 要 构建 混淆 矩阵 和 绘制 ROC 曲线 ， 其 中 混淆 窃 阵 用 于 模型 准确 率 、 履 盖 率 、 精 准 
率 指标 的 计算 ，ROC 曲线 用 于 计算 AUC 值 ， 并 将 AUC 值 与 0.8 相 比 ， 判 断 模 型 的 拟 合 效果 ， 代 
码 如 下 : 

# 导入 第 三 方 包 

from sklearn import metrics 


import matplotlib.pyplot as plt 
import seaborn as sns 


# 构建 混淆 矩阵 

cm = pd.crosstab (gnb pred,y test) 

# 绘制 混 清和 矩阵 图 

sns.heatmap (cm, annot = True, cmap = 'GnBu', fmt = 'd') 


# 去 除 x 轴 和 y 轴 标签 
Pplt.xlabel ('Real') 
plt.ylabel ('Predict') 
# 显示 图 形 

plt.show() 


见 图 12-1。 
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图 12-1 混淆 矩 阵 的 可 视 化 展现 


print (' 模 型 的 准确 率 为 ， \n',metrics.accuracy_scorel(y_test, gnb_pred)) 
print (' 模 型 的 评估 报告 ; \n',metrics.classification report(y_test, gnb pred)) 
模型 的 准确 率 为 : 

0.922957643026 


模型 的 评估 报告 ; 
precision recall fl-score support 
0 0.93 0.97 0.95 48522 
济 0.88 0.73 0.80 12743 
avg / total 0.92 0.92 0.92 61265 


如 图 12-1 所 示 ， 将 混淆 矩阵 做 了 可 视 化 处 理 ， 其 中 主 对 角 线 的 数值 表示 正确 预测 的 样本 量 ， 
剩余 的 4 720 条 样本 为 错误 预测 的 样本 。 经 过 对 混淆 矩阵 的 计算 ， 可 以 得 到 模型 的 整体 预测 准确 率 
为 92.30%; 进一步 可 以 得 到 每 个 类 别 的 预测 精准 率 (precision= 正 确 预 测 某 类 别 的 样本 量 /该 类 别 的 
预测 样本 个 数 》 和 覆盖 率 〈recall= 正 确 预 测 某 类 别 的 样本 量 /该 类 别 的 实际 样本 个 数 ) ， 通 过 准确 
率 、 精 准 率 和 履 盖 率 的 对 比 ， 模 型 的 预测 效果 还 是 非常 理想 的 。 接 下 来 绘制 ROC 曲线， 用 于 进 一 
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步 验 证 得 到 的 结论 ， 代 码 如 下 : 


# 计算 正 例 的 预测 概率 ， 用 于 生成 ROC 曲线 的 数据 

y_score = gnb.predict proba(X test)[:,1] 

fpr, tpr,threshold = metrics.roc curvel(ly test, y_score) 
# 计算 AUc 的 值 


roc auc = metrics.auc (fpr,tpr) 


# 绘制 面积 图 

plt.stackplot (fpr，tpr，color='steelblue'，alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 

plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 

提 信息 

plt.text (0.5,0.3,'ROC curve (area = $%0.2f)' % roc auc) 
# 添加 x 轴 与 y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel('Sensitivity') 

# 显示 图 形 

plt.show() 


见 图 12-2。 
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12-2 高 斯 贝 叶 斯 分 类 器 的 ROC 曲线 


如 图 12-2 所 示 的 ROC 曲线 , 计算 得 到 的 AUC 值 为 0.94, 超过 用 于 评判 模型 好 坏 的 阔 值 0.8， 
故 可 以 认为 构建 的 贝 叶 斯 分 类 器 是 非常 理想 的 ， 进 而 验证 了 前 文 所 得 的 结论 。 最 后 需要 强调 的 是 ， 
利用 高 斯 贝 叶 斯 分 类 器 对 数据 集 进 行 分 类 时 要 求 输入 的 数据 集 X 为 连续 的 数值 型 变量 。 


12.2.3 多 项 式 贝 叶 斯 分 类 器 


如 果 数 据 集 中 的 自 变量 X 均 为 离散 型 变量 ， 就 无 法 使 用 高 斯 贝 叶 斯 分 类 器 ， 而 应 该 选择 多 项 式 
贝 叶 斯 分 类 器 。 在 计算 概率 值 PCXICD) 时 ， 会 假设 自 变量 X 的 条 件 概率 满足 多 项 式 分 布 ， 故 概率 值 
PCXICD) 的 计算 公式 可 以 表示 为 : 
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Nik 十 C 
Ni 十 ma 

其 中 ，z 表 示 自 变量 六 的 取 值 ，Nx 表 示 因 变量 为 类 别 G 时 自 变量 妨 取 xx 的 样本 个 数 ， 作 表示 
数据 集中 类 别 Ci 的 样本 个 数 ，a 为 平滑 系数 ， 用 于 防止 概率 值 取 0 可 能 ， 通 常 将 该 值 取 为 1， 表 和 示 
对 概率 值 做 拉 普 拉 斯 平滑 ，n 表 示 因 变量 的 类 别 个 数 。 
同样 ， 为 了 使 读者 理解 P(x = xjx|Ci) 的 计算 过 程 ， 这 里 虚拟 一 个 离散 型 自 变量 的 数据 集 ， 并 
通过 手工 方式 计算 某 个 新 样本 属于 各 类 别 的 概率 值 。 

如 表 12-2 所 示 ， 假 设 影响 女孩 是 否 参 加 相亲 活动 的 重要 因素 有 三 个 ， 分 别 是 男孩 的 职业 、 受 
教育 水 平和 收入 状况 ;如果 女孩 参加 相亲 活动 ， 则 对 应 的 Meet 变量 为 1， 和 否则 为 0。 请 问 在 给 定 
的 信息 下 ， 对 于 高 收入 的 公务 员 ， 并 且 其 学 历 为 硕士 的 男生 来 说 ， 女 孩 是 否 愿 意 参 与 他 的 相亲 ? 接 
下 来 通过 手动 的 方式 ， 计 算 女生 是 否 与 该 男生 见面 的 概率 ， 步 骤 如 下 : 


表 12-2 适合 多 项 式 贝 叶 斯 的 数据 类 型 





P(% = xjxlCi) = 











t 




















非 公务 员 


(1) 因 变 量 各 类 别 频率 
P(Meet = 0) = 4/10 = 0.4 
P(Meet = 1) = 6/10 = 0.6 


(2) 单 变量 条 件 概率 














0+1 1 
i _1 
P(Occupation = 公务 员 IMeet = 0) = 地 wi 
4+1 5 
jn 二 从 和 名品 ee i 
P(Occupation 务 员 |Meet 5 x 8 
i 二 
= 硕士 三 但 2 
P(Edu = 硕士 |Meet = 0) T4271 5 
十 
= 硕士 =1)= 一 -~ = 二 
P(Edu = 硕士 |Meet = 1) rr 
P(Imcome = 高 |Meet = 0) = = 
15 


P(Imcome = 高 |Meet = 1) = GFT 
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(3) 贝 叶 斯 后 验 概率 














4 1 3 1 
三 ion = 公务 员 = 硕士 高 = > 
P(Meet OlOccupation = 公 务 员 , Edu = 硕士 , Income 高 ) 四 站 5 江 x 5 塘 
Meet = 1lOccupation = 公务 员 = 硕士 ,mcome = 高 ) = 二 全 
P(Meet = 1|0ccupation = 公务 员 , Edu = 硕士 ,Income = 高 ) 0 BoD 756 


经 计算 发 现 ， 当 男生 为 高 收入 的 公务 员 ， 并 且 受 教育 水 平 也 很 高 时 ， 女 生 愿 意见 面 的 概率 约 
为 0.0703、 不 愿意 见面 的 概率 约 为 0.0056。 所 以 根据 argmax P(Ci)P(X|Ci) 的 原则 ， 最 终 女 生 会 选 
择 参加 这 位 男生 的 相亲 。 

需要 注意 的 是 ， 如 果 在 某 个 类 别 样本 中 没有 出 现 自 变量 妨 取 某 种 值 的 观测 时 ， 条 件 概 率 
P(% = Xk|Gi) 就 会 为 0。 例 如 ， 当 因 变量 Meet 为 0 时 ， 自 变量 Occupation 中 没有 取 值 为 公务 员 的 
样本 ， 所 以 就 会 导致 单 变量 条 件 概率 为 0， 进 而 使 得 P(CD)PCXICiD) 的 概率 为 0。 为 了 避免 贝 叶 斯 后 
验 概率 为 0 的 情况 , 会 选择 使 用 平滑 系数 w, 这 就 是 为 什么 自 变量 X 的 条 件 概率 写成 P(xj = xjx|Ci) = 
站 这 的 原因 。 

多 项 式 贝 叶 斯 分 类 器 的 计算 过 程 也 同样 比较 简单 , 读者 如 需 使 用 Python 实现 该 分 类 器 的 构造 ， 
可 以 直接 导入 sklearn 的 子 模块 naive_bayes 模块 ， 然 后 调用 MultinomialNB 类 。 有 关 该 “类 ”的 语 
法 和 参数 含义 如 下 : 


MultinomialNB (alpha = 1.0, fit prior = True, class prior = None) 


@ alpha: 用 于 指定 平滑 系数 a 的 值 ， 默 认为 1.0。 
@ fit_prior: bool 类 型 参数 ， 是否 以 数据 集中 各 类 别 的 比例 作为 P(Ci) 的 先 验 概率 , 默认 为 True。 
@ class_prior: 用 于 人 工 指 定 各 类 别 的 先 验 概率 P(Ci)， 如 果 指 定 该 参数 ， 则 参数 fit_prior 不 再 
有 效 。 
为 了 使 读者 理解 多 项 式 贝 叶 斯 分 类 器 的 功效 ， 接 下 来 将 使 用 MultinomialNB 类 进行 项 目 实战 ， 
实战 的 内 容 就 是 根据 蘑菇 的 各 项 特征 判断 其 是 否 有 毒 。 


12.2.4 ”多 项 式 贝 叶 斯 分 类 器 的 应 用 


蘑 妆 数据 集 来 自 于 UCI 网 站 ,一 共 包 含 8 124 条 观测 和 22 个 变量 ， 其 中 因 变 量 为 type， 表 示 
蘑菇 是 否 有 毒 ， 剩 余 的 自 变量 是 关于 蘑菇 的 形状 、 表 面 光 滑 度 、 颜 色 、 生 长 环境 等 。 首 先 将 该 数据 
集 读 入 Python， 并 预览 前 5 行 数据 ， 代 码 如 下 : 

# 读 取 数 据 

mushrooms = pd.read csv(r'C:\Users\Rdministrator\Desktop\mushrooms.csv') 


# 数据 的 前 5 行 ， 见 表 12-3 


mushrooms.head () 
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表 12-3 ”数据 的 前 5 行 预览 























type cap_shape | cap_surface |cap_color |bruises |odor |gill_attachment |gill_spacing | gil_size | gill_color|…| stalk_surface_above. 
0|poisonous|convex |smooth brown |yes |pungent|free close narrow |black smooth 
1|edble |convex |smooth yelow |yes |almond |free close broad |black smooth 
2|edble |bell smooth white yes |anise |iree close broad |brown smooth 
3|poisonous |convex |scaly white yes |pungent |free close narrow |brown smooth 
4|edible |convex |smooth gray no none |free crowded |broad |black smooth 









































5 rows x 22 columns 


如 表 12-3 所 示 ， 表 中 的 所 有 变量 均 为 字符 型 的 离散 值 ， 由 于 Python 建 模 过 程 中 必须 要 求 自 变 


量 为 数值 类 型 ， 因 此 需要 对 这 些 变 量 做 因子 化 处 理 ， 即 把 字符 值 转换 为 对 应 的 数值 。 接 下 来 利用 
pandas 模块 中 的 factorize 函数 对 离散 的 自 变量 进行 数值 转换 ， 代 码 如 下 


# 将 字符 型 数据 做 因子 化 处 理 ， 将 其 转换 为 整数 型 数据 
columns = mushrooms .columns [1:] 
for column in columns : 
mushrooms [column] = pd.factorize (mushrooms [column])[0] 




















mushrooms.head () 
见 表 12-4。 
表 12-4 ”离散 变量 的 数值 化 处 理 

type cap_shape | cap_surface | cap_color | bruises | odor | gill_attachment | gill_spacing | gill_size | gill_color |... | stalk_surface_above_r 
0|polsonous|0 0 0 0 0 0 0 0 0 0 
1|edible 0 0 1 0 1 0 0 1 0 0 
2 |edible 1 0 和 2 0 2 0 0 1 1 0 
3|poisonous|0 1 2 0 0 0 0 0 1 0 
4|edible 0 0 3 1 3 0 1 党 0 0 









































同 


5 rows x 22 columns 


如 表 12-4 所 示 ， 所 有 的 字符 型 变量 全 部 转换 成 了 数值 ， 而 且 每 一 列 中 的 数值 都 代表 了 各 自 不 





的 字符 值 .需要 注意 的 是 , factorize 函数 返回 的 是 两 个 元 素 的 元 组 , 第 一 个 元 素 为 转换 成 的 数值 ， 


第 二 个 元 素 为 数值 对 应 的 字符 水 平 ， 所 以 在 类 型 转换 时 , 需要 通过 索引 方式 返回 因子 化 的 值 。 接 着 
就 可 以 使 用 多 项 式 贝 叶 斯 分 类 器 对 如 上 数据 集 进行 类 别 的 预测 , 为 了 实现 模型 的 验证 , 需要 将 该 数 
据 集 拆 分 为 训练 集 和 测试 集 ， 代 码 如 下 : 


# 将 数据 集 拆 分 为 训练 集合 测试 集 

Predictors = mushrooms.columns[1:] 

X_train,x test,y train,y_test = model selection.train test_split (mushrooms [Predictors], 
mushrooms['type'], 
test_size = 0.25, 
random state = 10) 

# 构建 多 项 式 贝 叶 斯 分 类 器 的 “类 ” 

mnb = naive bayes.MultinomialNB () 

# 基于 训练 数据 集 的 拟 合 

mnb.fit (X train, y train) 

# 基于 测试 数据 集 的 预测 

mnb_pred = mnb.predict (X_test) 
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# 构建 混淆 矩阵 

cm = pd.crosstab (mnb pred,y test) 

# 绘制 混 光 矩 阵 图 

sns.heatmap (cm，annot = True, cmap = 'GnBu', fmt = 'd') 
# 去 除 x 轴 和 yy 轴 标 签 

plt.xlabel('') 

plt.ylabel ('') 





# 显示 图 形 
Plt.show() 
见 图 12-3。 
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12-3 ”混淆 矩 阵 的 可 视 化 展现 
# 模型 的 预测 准确 率 


print (" 模 型 的 准确 率 为 ， \n',metrics.accuracy scorel(ly test, mnb_pred)) 
print ('" 模 型 的 评估 报告 \n', metrics.classification report(y_test, mnb_pred)) 


模型 的 准确 率 为 : 
0.870014771049 
模型 的 评估 报告 : 

Precision recall fl-score support 
edible 0.85 0.92 0.88 1072 
poisonous 0.90 0.82 0.86 959 
avg / total 0.87 0.87 0.87 2031 


在 如 上 的 混淆 矩阵 图 中 ， 横 坐标 代表 测试 数据 集中 的 实际 类 别 值 ， 纵 坐标 为 预测 类 别 值 ， 正 
确 预 测 无 毒 的 有 981 个 样本 ,正确 预测 有 毒 的 有 786 个 样本 。 基于 混淆 矩阵 的 进一步 运算 , 可 以 得 
到 如 上 所 示 的 两 部 分 结果 ， 并 从 中 发 现 ， 模 型 在 测试 数据 集 上 的 整体 预测 准确 率 为 87%， 而 且 从 
各 类 别 值 来 看 ， 无 毒 蘑菇 的 预测 覆盖 率 为 92%、 有 毒 蘑 菇 的 预测 覆盖 率 为 82%。 总 体 来 说 ， 模 型 
的 预测 效果 还 是 非常 理想 的 , 接 下 来 继续 绘制 ROC 曲线 ,查看 对 应 的 AUC 值 的 大 小 , 代码 如 下 : 


# 计算 正 例 的 预测 概率 ， 用 于 生成 ROC 曲线 的 数据 

y_score = mnb.predict proba(X test)[:,1] 

fpr, tpr, threshold = metrics.roc curvel(ly test.map({'edible':0,'poisonous':1}), y_ score) 
# 计算 AUc 的 值 


roc auc = metrics.auc (fpr,tpr) 





# 绘制 面积 图 
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plt.stackplot (fpr，tpr，color='steelblue'，alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 

Plt.plot ([0,1], [0,1], color = 'red', linestyle = '--—') 
# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = 8%0.2f)' $ roc auc) 
# 添加 x 轴 与 y 轴 标签 

Pplt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

# 显示 图 形 

Plt.show() 


见 图 12-4。 
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图 12-4 多 项 式 贝 叶 斯 分 类 器 的 ROC 曲线 


如 图 12-4 所 示 ，ROC 曲线 下 的 面积 为 0.94， 超 过 阔 值 0.8， 可 以 认为 模型 的 效果 是 可 以 接受 
的 。 需 要 注意 的 是 ， 当 因 变 量 为 字符 型 的 值 时 ， 子 模块 metrics 中 的 函数 roc_curve 必须 传 入 数值 型 
的 因 变 量 〈 如 代码 所 示 ， 将 字符 值 和 数值 做 了 映射 ) ， 否 则 会 报错 误 信息 。 

对 于 离散 型 自 变量 的 数据 集 而 言 ， 在 分 类 问题 上 并 非 都 可 以 使 用 多 项 式 贝 叶 斯 分 类 器 ， 如 果 
自 变 量 在 特定 y 值 下 的 概率 不 服从 多 项 式 分 布 的 话 , 分 类 器 的 预测 效果 就 不 会 很 理想 。 通 常情 况 下 ， 
会 利用 多 项 式 贝 叶 斯 分 类 器 作文 本 分 类 ， 如 一 份 邮 件 是 否 垃圾 邮件 、 用 户 评论 是 否 为 正面 等 。 


12.2.5” 伯 努 利 贝 叶 斯 分 类 器 


当 数 据 集中 的 自 变 量 X 均 为 0-1 二 元 值 时 〈 例 如 在 文本 挖掘 中 ， 判 断 某 个 词语 是 否 出 现在 句子 
中 ， 出 现 用 1 表示 ， 不 出 现 用 0 表示 ) ， 通 常会 优先 选择 伯 努 利 贝 叶 斯 分 类 器 。 利 用 该 分 类 器 计算 
概率 值 P(X|Gi) 时 ， 会 假设 自 变量 X 的 条 件 概 率 满足 伯 努 利 分 布 ， 故 概率 值 P(X|Ci) 的 计算 公式 可 以 
表示 为 : 
PilGD] = px + (1 -7p) (1-») 
其 中 ，% 为 第 j 个 自 变 量 ， 取 值 为 0 或 1; p 表 示 类 别 为 Ci 时 自 变量 取 1 的 概率 ， 该 概率 值 可 以 
使 用 经 验 频率 代替 ， 即 
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Nz 十 C 
p=P(x; = 1|G;) Sn 
其 中 , N; 表 示 类 别 Ci 的 样本 个 数 ; Ne 表示 在 类 别 为 Ci 时 , 罗 变 量 取 1 的 样本 量 ; a 为 平滑 系数 ， 
同样 是 为 了 避免 概率 为 0 而 设置 的 ，n 为 因 变量 中 的 类 别 个 数 。 
下 面 举 一 个 通俗 易 懂 的 例子 ， 并 通过 手工 计算 的 方式 来 说 明 伯 努 利 贝 叶 斯 分 类 器 在 文本 分 类 
中 的 应 用 。 
假设 对 10 条 评论 数据 做 分 词 处 理 后 , 得 到 如 表 12-5 所 示 的 文档 词 条 矩阵 , 矩阵 中 含有 5 个 词 
语 和 1 个 表示 情感 的 结果 ， 其 中 类 别 为 0 表示 正面 情绪 ，! 表示 负面 情绪 。 如 果 一 个 用 户 的 评论 中 
仅 包 含 “还 行 ” 一 词 ， 请 问 该 用 户 的 评论 属于 哪 种 情绪 ? 接 下 来 通过 手动 的 方式 , 计算 该 用 户 的 评 
论 属 于 正面 和 负面 的 概率 ， 步 骤 如 下 : 


表 12-5 ”适合 伯 努 利 贝 叶 斯 的 数据 类 型 

















(1) 因 变 量 各 类 别 频率 


P( 类 别 = 0) = 4/10 = 2/5 
P( 类 别 = 1) = 6/10 = 3/5 


(2) 单 变量 条 件 概率 


P(xi = 0| 类 别 =0)=(1+D/(4+2)= 1/3 
P(xi = 0| 类 别 =1)=(4+D/(6+2) = 5/8 
P(xz = 0| 类 别 =0) = (1+1)/(4+2)= 1/3 
P(xz = 0| 类 别 = 1) = (4+1)/(6+2)=5/8 
P(xs = 0| 类 别 = 0) = (4+1)/(4+2) = 5/6 
P(xs = 0| 类 别 =1) = (1+1)/(6+2)= 1/4 
P(xs = 1| 类 别 =0)= (2+1)/(4+2)= 1/2 
P(x4 = 1| 类 别 =1)= (0+1)/(6+2)= 1/8 
P(xs = 0| 类 别 =0)= (4+1)/(4+2)=5/6 
P(xs = 0| 类 别 =1)= (+1)/(6+2)= 1/4 
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(3) 贝 叶 斯 后 验 概率 


P( 类 别 =0|xm =0,xz=0,xs=0,x4=1,xs=0) 
_21 1 5 1 .5_ 5 
5 3 3 6 2 6 324 
和 攻克 本 人 
5 和 ,和光 
-xxxix3= 4055 


如 上 结果 所 示 ， 当 用 户 的 评论 中 只 含有 “还 行 ” 一 词 时 ， 计 算 该 评论 为 正面 情绪 的 概率 约 为 
0.015， 评 论 为 负面 情绪 的 概率 约 为 0.00073， 故 根据 贝 叶 斯 后 验 概率 最 大 原则 将 该 评论 预 判 为 正面 
情绪 。 

伯 努 利 贝 叶 斯 分 类 器 的 计算 与 多 项 式 贝 叶 斯 分 类 器 的 计算 非常 相似 ， 在 文本 分 类 问题 中 ， 如 
果 构 造 的 数据 集 是 关于 词语 出 现 的 次 数 , 通常 会 选择 多 项 式 贝 叶 斯 分 类 器 进行 预测 ; 如 果 构 造 的 数 
据 集 是 关于 词语 是 否 会 出 现 的 0-1 值 ， 则 会 选择 伯 努 利 贝 叶 斯 分 类 器 进行 预测 。 当 读者 需要 构造 伯 
努 利 贝 叶 斯 分 类 器 时 , 可 以 直接 调用 sklearn 子 模块 naive_bayes 中 的 BernoulliNB 类 。 有 关 该 “类 ” 
的 语法 和 参数 含义 如 下 : 


BernoulliNB (alpha = 1.0, binarize=0.0, fit prior = True，class_prior = None) 


@ alpha: 用 于 指定 平滑 系数 0 的 值 ， 默 认为 1.0。 

@ ”binarize: 如 果 该 参数 为 浮 点 型 数值 ， 则 将 以 该 值 为 界限 ， 当 自 变量 的 值 大 于 该 值 时 ， 自 变量 
的 值 将 被 转换 为 1， 否则 被 转换 为 0; 如 果 该 参数 为 None 时 ， 则 默认 训练 数据 集 的 自 变量 均 
为 0-1 值 。 

”fit_prior: bool 类 型 参数 ， 是 否 以 数据 集中 各 类 别 的 比例 作为 P(Ci) 的 先 验 概率 ， 默 认为 True。 

@ class_prior: 用 于 人 工 指 定 各 类 别 的 先 验 概率 P(Ci)， 如 果 指 定 该 参数 ， 则 参数 fit_prior 不 再 有 
效 。 














接 下 来 将 利用 Python 中 的 BernoulliNB 类 对 用 户 的 评价 数据 进行 分 类 ， 分 类 的 目的 是 预测 用 
户 的 评价 内 容 所 表达 的 情绪 《积极 或 消极 ) 。 


12.2.6 ” 伯 努 利 贝 叶 斯 分 类 器 的 应 用 


用 户 对 其 购买 的 蚊帐 进行 评论 ， 该 数据 集 是 通过 爬虫 的 方式 获得 ， 一 共 包含 10 644 条 评论 ， 
数据 集中 的 Type 变量 为 评论 所 对 应 的 情绪 。 首 先 将 聆 虫 获得 的 数据 集 读 入 Python 中 , 并 预览 前 几 
行 数据 ， 代 码 如 下 : 

# 读 入 评论 数据 

evaluation = pd.read excel(r'C:\Users\Administrator\Desktop\Contents.xlsx', sheetname=0) 


# 查看 数据 前 10 行 ， 见 表 12-6 
evaluation.head(10) 
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表 12-6 数据 的 前 10 行 预览 





























Content Type 

1、 包 装 有 破损 ; 2、 拉 链 处 有 线头 阻碍 拉链 拉动 ; 3、 最 过 分 的 是 没有 安 兆 说 明 ,第 一 次 安 半 可 要 动 了 。。 | Negative 
怎么 8amp#039: 上 长 &amp'#039: 始 了 我 三 根 空 古 ， 现 在 叫 禾 等 么 著 啊 Negatve 
没有 送 货 上 门 ， 和 失望 。 Negative 
斤 不 钼 的 ， 就 是 玻 了 个 口子 ， 不 知道 只 时 候 邢 的 ， 束 体 用 的 还 不 错 ， 老 浊 怀 孚 了 不 能 点 入 得， 所 以 这 是 不 | Positive 
东西 不 措 ,效果 可 以 Posilive 
质量 极 差 ， 脱 线 极 其 严重 ! Negatve 
一 直 使 用 , 买 了 好 几 套 ,孩子 喜欢 Positive 
刚 实 加 来 ， 绞 帐 训 有 3 个 鞭 豆 粒 大 小 的 小 洞 洞 . Negative 
货 想 值 ,加 ， 下 次 月 来 。 帮 你 做 个 广告 ， 朋 友 们 : 这 家 店 的 货 值 Posltve 
一 米 八 的 床 ， 杆 子 还 没 一 米 五 ! 怎么 拼 ?真是 服 了 ! n Negatve 

















如 表 12-6 所 示 ， 数 据 集 包 含 4 个 字段 ， 分 别 是 用 户 昵称 、 评 价 时 间 、 评 价 内 容 和 对 应 的 评价 
情绪 。 从 评价 内 容 来 看 ， 会 有 一 些 “ 脏 ”文本 在 内 ， 如 数字 、 英 文 等 ， 所 以 需要 将 这 些 “ 脏 ”文本 
删除 ， 代 码 如 下 : 

# 运用 正则 表达 式 ， 将 评论 中 的 数字 和 英文 去 除 


evaluation.Content = evaluation.Content.str.replace('[0-9a-zA-2]','') 
evaluation.head() 


见 表 12-7。 
表 12-7 文本 数据 清洗 后 的 前 5 行 预览 


Content 
、 包 装 有 破损 ; 、 拉 链 处 有 线头 阻碍 拉链 拉动 ; 、 最 过 分 的 是 没有 安装 说 明 ， 第 一 次 安装 可 歼 劲 了 。 
怎么 &#. 上 长 &# 给 了 我 二 根 空 杆 ， 现 在 叫 我 怎么 装 啊 











没有 送 货 上 门 ， 失 望 。 
挺 不 错 的 ， 就 是 破 了 个 口子 ， 不 知道 啥 时 候 弄 的 ， 整 体 用 的 还 不 错 ,老婆 怀孕 了 不 能 点 蚊香 ， 所 以 这 是 不 .| Positive 
东西 不 错 ， 效 果 可 以 Positive 





经 过 数据 的 初步 清洗 后 ， 下 一 步 要 做 的 就 是 对 文本 进行 切 词 ， 但 在 切 词 前 ， 通 常 需要 引入 用 
户 自 定义 的 词 库 和 停止 词 。 利 用 词典 的 目的 是 将 无 法 正常 切割 的 词 实现 正确 切割 (如 * 沙 瑞金 书记 ” 
会 被 切 词 为 “ 沙 ” “瑞金 ”- “书记 ”， 为 了 避免 这 种 情况 ， 就 需要 将 类 似 “ 沙 瑞金 ”这 样 的 词组 合 
为 词 库 ) ， 使 用 停止 词 的 目的 是 将 句子 中 无 意义 的 词语 删除 (如 “的 ”“ 啊 ”“ 我 们 ”等 ) 。 


# 导入 第 三 方 包 
import jieba 





# 加 载 自 定义 词 库 

jieba.load userdict (r'C:\Users\Administrator\Desktop\all words.txt') 

# 读 入 停止 词 

with open(r'C:\Users\Administrator\Desktop\mystopwords.txt', encoding='UTF-8') as words: 
stop words = [i.strip() for i in words.readlines()] 

# 构造 切 词 的 自 定义 函数 ， 并 在 切 词 过 程 中 删除 停止 词 

def cut word(sentence): 
words = [i for i in jieba.lcut (sentence) if i not in stop words] 


# 切 完 的 词 用 空格 隔 开 
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result = ' ' .join(words) 
return(result) 

# 调用 自 定义 函数 ， 并 对 评论 内 容 进行 批量 切 词 

words = evaluation.Content.apply(cut_word) 


# 前 5 行内 容 的 切 词 效果 


words[:5] 

out: 

0 ”包装 破损 拉链 处 有 线头 阻碍 拉链 拉动 没有 安装 第 一 次 安装 费劲 
1 上 长 三 要 旗杆 : 装 

2 ”没有 送 货 上 门 失望 

3 “ 挺 不 错 破 口子 不 知道 喻 时 候 弄 不 错 老婆 怀孕 蚊香 不 错 

4 ”不错 效果 


如 上 结果 所 示 ， 通 过 调 入 第 三 方 包 jieba 实现 中 文 的 切 词 ， 并 在 切 词 过 程 中 加 入 自 定义 词 库 和 
删除 停止 词 。 接 下 来 利用 如 上 的 切 词 结果 ， 构 造 文档 词 条 和 矩阵， 矩阵 的 每 一 行 代表 一 个 评论 内 容 ， 
和 矩阵 的 每 一 列 代表 切 词 后 的 词语 ， 甜 阵 的 元 素 为 词语 在 文档 中 出 现 的 频次 。 代 码 如 下 : 

# 导入 第 三 方 包 


from sklearn.feature extraction.text import CountVectorizer 


# 计算 每 个 词 在 各 评论 内 容 中 的 次 数 ， 并 将 稀疏 度 为 99$ 以 上 的 词 删除 
counts = CountVectorizer (min df = 0.01) 

# 文档 词 条 矩阵 

dtm counts = counts.fit transform(words) .toarray() 
# 矩阵 的 列 名 称 

columns = counts.get feature names() 

# 将 矩阵 转换 为 数据 框 ， 即 x 变量 

X = pd.DataFrame (dtm counts, columns=columns) 

# 情感 标签 变量 

y = evaluation.Type 

X.head() 


见 表 12-8。 


表 12-8 切 词 后 构成 的 文档 词 条 和 矩阵 


























一 根 | 下 单 | 不 值 | 不 好 | 不 起 | 不 满意 | 不 知道 | 不 行 | 不 错 | 买 回来 | -| 还 好 还 行 [ 退 当 | 送 此 | 速度 | 钢管 | 防 蚁 | 非常 好 [上 色 [麻烦 
0|10 0 0 0 0 0 lo 0 0 0 lo lo 0 0 |。 lo 0 0 0 0 
lo lo lo lo lo lo jl lo lo lo lo lo lo lo lo lo lo lo lo lo 
2lo0 lo lo lo lo lo lo lo lo lo lo lo lo lo lo lo lo lo lo lo 
slo lo lo lo lo lo o |2 jo lo lo lo lo lo lo lo lo o lo 
4|0 0 0 0 0 0 | 0 1 0 | 0 lo 0 lo |。 0 0 0 0 


















































5 rows x 99 columns 





如 表 12-8 所 示 ， 将 文档 词 条 甜 阵 转换 为 数据 框 后 得 到 一 个 庞大 的 稀 足 和 矩阵 ， 即 数据 框 中 的 大 
部 分 值 为 0。 为 了 避免 数据 框 的 列 数 过 多 ， 在 构造 文档 词 条 矩阵 时 做 了 相应 的 限制 条 件 ， 即 代码 中 
的 CountVectorizer(min_df= 0.01), 表示 词语 所 对 应 的 文档 数目 必须 在 所 有 文档 中 至 少 占 1% 的 比例 ， 
最 终 得 到 表 12-8 中 所 呈现 的 99 个 变量 。 有 了 如 上 的 数据 框 ， 接 下 来 要 做 的 就 是 将 数据 集 拆 分 为 训 
练 集 和 测试 集 , 并 利用 训练 集 构建 伯 努 利 贝 叶 斯 分 类 器 ,利用 测试 集 对 分 类 器 的 预测 效果 进行 评估 ， 
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具体 代码 如 下 : 
# 将 数据 集 拆 分 为 训练 集 和 测试 集 


Xx train,xX test,y train,y test = model selection.train test split (X,y,test size = 0.25, 
random_ state=1) 

# 构建 伯 努 利 贝 叶 斯 分 类 器 

bnb = naive bayes.BernoulliNB() 

# 模型 在 训练 数据 集 上 的 拟 合 

bnb.fit(X train,y train) 

# 模型 在 测试 数据 集 上 的 预测 

bnb pred = bnb.predict (X_test) 


# 构建 混 涌 矩阵 

cm = pd.crosstab (bnb pred,y test) 

# 绘制 混淆 矩 阵 图 

sns.heatmap (cm, annot = True, cmap = 'GnBu', fmt = 'd') 


# 去 除 x 轴 和 Y 轴 标签 
Pplt.xlabel ('Real') 
plt.ylabel ('Predict') 





# 显示 图 形 
plt.show() 
见 图 12-5。 
1200 
1000 
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上 600 
9- -400 
200 
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Real 
图 12-5 ”混淆 矩阵 的 可 视 化 展现 
# 模型 的 预测 准确 率 


print (' 模 型 的 准确 率 为 : \n',metrics.accuracy_scorel(y_test, bnb_pred)) 
Print (' 模 型 的 评估 报告 ; \n',metrics.classification report(y_test, bnb_ pred)) 


模型 的 准确 率 为 : 
0.84704998121 
模型 的 评估 报告 : 
precision recall fl-score support 
Negative 0.82 0.90 0.86 1341 
Positive 0.88 0.80 0.84 1320 
avg / total 0.85 0.85 0.85 2661 


如 上 结果 所 示 ， 从 混淆 矩阵 图 形 来 看 ， 伯 努 利 贝 叶 斯 分 类 器 在 预测 数据 集 上 的 效果 还 是 非常 
棒 的 ， 绝 大 多 数 的 样本 都 被 预测 正确 〈 因 为 主 对 角 线 上 的 数据 非常 大 ) ， 而 且 总 的 预测 准确 率 接近 
85%; 从 模型 的 评估 报告 来 看 ， 预 测 为 消极 情绪 的 覆盖 率 0.9 相 比 于 积极 情绪 的 覆盖 率 0.8 要 更 高 
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一 些 , 但 总 体 来 说 模型 的 预测 效果 还 是 不 错 的 。 同 理 ， 再 绘制 一 下 关于 模型 在 测试 数据 集 上 的 ROC 
曲线 ， 代 码 如 下 : 





It.show() 


见 图 12-6。 








0.0 02 04 
LSpecificity 


图 12-6 ” 伯 努 利 贝 叶 斯 分 类 器 的 ROC 曲线 


如 图 12-6 所 示 ， 绘 制 的 ROC 曲线 所 对 应 的 AUC 值 为 0.93， 同 样 是 一 个 非常 高 的 数值 ， 再 结 
合 模型 准确 率 、 覆 盖 率 等 指标 ， 可 以 认为 该 模型 在 测试 数据 集 上 的 预测 效果 是 非常 理想 的 。 需 要 说 
明 的 是 ， 如 果 训 练 数据 集 是 关于 词语 在 各 文档 中 出 现 的 频次 ， 直 接 调 用 BemoulliNB 类 是 没有 问题 
的 ， 因 为 该 “类 ”中 参数 binarize 默认 值 为 0， 即 如 果 词 的 频次 大 于 0， 则 对 应 的 变量 值 在 模型 运 
算 时 会 转换 成 1， 否则 转换 为 0。 
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12.3 ”本 童 小结 


本 章 介 绍 了 有 关 三 种 朴素 贝 叶 斯 分 类 器 , 这 三 种 分 类 器 的 选择 主要 依赖 于 自 变量 X 数 据 的 类 型 。 
如 果 自 变量 X 均 为 连续 的 数值 型 ， 则 需要 选择 高 斯 贝 叶 斯 分 类 器 ， 如 果 自 变量 X 均 表示 为 离散 的 数 
据 类 型 ， 则 需要 选择 多 项 式 贝 叶 斯 分 类 器 ; 如 果 自 变量 8 为 0-1 二 元 值 ， 则 需要 选择 伯 努 利 贝 叶 斯 
分 类 器 。 朴素 贝 叶 斯 分 类 器 的 核心 假设 为 自 变 量 之 间 是 条 件 独立 的 ， 该 假设 的 主要 目的 是 为 了 提高 
算法 的 运算 效率 , 如 果实 际 数据 集中 的 自 变量 不 满足 独立 性 假设 时 ,分 类 器 的 预测 结果 往往 会 产生 
漠 误 。 

本 章 的 主要 内 容 包含 了 三 种 朴素 贝 叶 斯 分 类 器 的 理论 思想 、 运 算 过 程 和 应 用 实战 ， 通 过 本 章 内 容 
的 学 习 ， 读 者 可 以 对 比 三 者 的 差异 和 应 用 场景 ， 并 从 中 选择 合理 的 是 算法 完成 工作 中 的 实际 需求 。 

为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 。 






































Python 模块 Python 函数 或 方法 函数 说 明 
read_excel，read_ csv 读 取 Excel 和 文本 文件 数据 的 函数 
DataFrame 构造 数据 框 的 函数 
map 基于 序列 的 元 素 映 射 “ 方 法 ” 
apply 基于 序列 或 数据 框 的 映射 “方法 ” 
pandas strreplace 基于 字符 型 序列 的 元 素 替 换 “ 方 法 ” 
value_counts 基于 序列 的 元 素 频数 统计 “方法 ” 
crosstab 构造 交叉 表 〈 如 混淆 矩阵 ) 的 函数 
factorize 将 字符 型 变量 做 因子 化 处 理 的 函数 
train_test_split 将 数据 集 拆 分 为 训练 集 和 测试 集 的 函数 
GaussianNB 构造 高 斯 贝 叶 斯 分 类 器 的 “类 ” 
MultinomialNB 构造 多 项 式 贝 叶 斯 分 类 器 的 “类 ” 
BemoulliNB 构造 伯 努 利 贝 叶 斯 分 类 器 的 “类 ” 
sklearn fit、predict 基于 “类 ”的 模型 拟 合 和 预测 “方法 ” 
predict proba 预测 各 类 别 出 现 概率 的 “方法 ” 
roc_curve 用 于 生成 绘制 ROC 曲线 数据 的 函数 
auc 用 于 计算 AUC 值 的 函数 
CountVectorizer 用 于 构造 文档 词 条 矩阵 的 “类 ” 
Set _ feature_names 返回 文档 词 条 矩阵 列 名 称 的 “方法 ” 
jieba load_userdict 加 载 自 定义 词 库 的 函数 
leut 用 于 中 文 切 词 的 函数 
Seaborn heatmap 绘制 热力 图 的 函数 
matplotlib stackplot 绘制 面积 图 的 函数 








SVM 模型 的 应 用 


SVM 是 Support Vector Machine 的 简称 ， 它 的 中 文 名 为 支持 向 量 机 ， 属 于 一 种 有 监督 的 机 器 
学 习 算 法 ,可 用 于 离散 因 变 量 的 分 类 和 连续 因 变 量 的 预测 。 通常 情况 下 ,该 算法 相对 于 其 他 单一 的 
分 类 算法 (如 Logistic 回归 、 决 策 树 、 朴 素 贝 叶 斯 、KNN 等 ) 会 有 更 好 的 预测 准确 率 ， 主 要 是 因 
为 它 可 以 将 低 维 线性 不 可 分 的 空间 转换 为 高 维 的 线性 可 分 空间 。 由 于 该 算法 具有 较 高 的 预测 准确 率 ， 
所 以 其 备 受 企 业界 的 欢迎 ， 如 利用 该 算法 实现 医疗 诊断 、 图 像 识别 、 文 本 分 类 、 市 场 营销 等 。 

该 算法 的 思想 就 是 利用 某 些 支 持 向 量 所 构成 的 “ 超 平面 ”， 将 不 同类 别 的 样本 点 进行 划分 。 
不 管 样本 点 是 线性 可 分 的 、 近 似 线性 可 分 的 还 是 非 线 性 可 分 的 ， 都 可 以 利用 “ 超 平面 ”将 样本 点 以 较 
高 的 准确 度 切割 开 来 。 需 要 注意 的 是 ， 如 果 样 本 点 为 非 线 性 可 分 ， 就 要 借助 于 核 函 数 技术 ， 实 现 样本 
在 核 空间 下 完成 线性 可 分 的 操作 。 关 键 是 “ 超 平面 ”该 如 何 构造 ， 这 在 本 章 的 内 容 中 会 有 所 介绍 。 

运用 SVM 模型 对 因 变 量 进行 分 类 或 预测 时 具有 几 个 显著 的 优点 : 例如 ， 由 于 SVM 模型 最 终 
所 形成 的 分 类 器 仅 依赖 于 一 些 支 持 向 量 , 这 就 导致 模型 具有 很 好 的 鲁 棒 性 增加 或 删除 非 支持 向 量 
的 样本 点 ， 并 不 会 改变 分 类 器 的 效果 ) 以 及 避免 “维度 灾难 ”的 发 生 《〈 模 型 并 不 会 随 数据 维度 的 提 
升 而 提高 计算 的 复杂 度 ) ; 模型 具有 很 好 的 泛 化 能 力 ， 一 定 程度 上 可 以 避免 模型 的 过 拟 合 ; 也 可 以 
避免 模型 在 运算 过 程 中 出 现 的 局 部 最 优 。 当 然 ， 该 算法 的 缺点 也 是 明显 的 ， 例 如 模型 不 适合 大 样本 
的 分 类 或 预测 ， 因 为 它 会 消耗 大 量 的 计算 资源 和 时 间 ; 模型 对 缺失 样本 非常 敏感 ， 这 就 需要 建 模 前 
清洗 好 每 一 个 观测 样本 ; 虽然 可 以 通过 核 函 数 解决 非 线 性 可 分 问题 , 但 是 模型 对 核 函 数 的 选择 也 同 
样 很 敏感 ，SVM 为 黑 盒 模型 〈 相 比 于 回归 或 决策 树 等 算法 ) ， 对 计算 得 到 的 结果 无 法 解释 。 

SVM 的 学 习 难点 可 能 在 于 算法 的 理解 和 理论 推导 ， 本 章 将 通过 图 形 和 示例 的 方式 详细 地 介绍 
SVM 算法 的 相关 知识 点 。 通 过 本 章 内 容 的 学 习 ， 希 望 读者 可 以 掌握 如 下 几 方 面 的 要 点 : 

SVM 的 简介 ; 
线性 可 分 的 SVM; 
线性 SVM; 

非 线性 可 分 的 SVM; 
SVM 的 回归 预测 ; 
SVM 的 应 用 与 实战 ; 
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13.1 SVM 简介 


正如 前 文 所 说 ，SVM 分 类 器 实质 上 就 是 由 某 些 支持 向 量 构成 的 最 大 间隔 的 “ 超 平面 ”， 即 分 
割 平面 。 读 者 可 能 觉得 “ 超 平面 ”这 个 词 比较 抽象 ， 其 实说 穿 了 就 是 不 同 维度 空间 下 的 分 割 ， 例 如 
在 一 维 空间 中 ， 如 和 需 将 数据 切 分 为 两 段 ,只 需要 一 个 点 即 可 ; 在 二 维 空间 中 ,对 于 线性 可 分 的 样本 
点 ， 将 其 切 分 为 两 类 ， 只 需 一 条 直线 即 可 ;在 三 维 空间 中 ， 将 样本 点 切 分 开 来 ， 就 需要 一 个 平面 ; 
以 此 类 推 ， 在 更 高 维度 的 空间 内 ， 可 能 就 需要 构造 一 个 “ 超 平面 ”将 数据 进行 划分 。 

为 了 能 够 使 读者 比较 清晰 地 理解 “ 超 平面 ”的 含义 ， 可 以 对 比 查 看 如 图 13-1 所 示 的 三 幅 图 ， 
它们 分 别 表 示 一 维 数据 、 二 维 数据 和 三 维 数据 的 分 割 。 





13-1 三 种 维度 下 的 数据 分 割 


如 第 一 幅 图 所 示 , 假设 某 贷款 机 构 在 对 客户 放贷 时 只 考虑 其 收入 一 个 维度 的 话 , 从 图 中 可 知 ， 
只 需要 设 定点 x=7500， 就 可 以 将 是 否 放贷 的 用 户 判断 出 来 ; 在 左下 图 中 ， 如 果 影 响 某 位 女性 参加 
相亲 的 因素 有 两 个 〈 分 别 为 收入 和 年 龄 ) ， 只 需 一 条 4x + By + C = 0 的 直线 就 可 以 将 样本 点 划分 
开 来 ; 在 右 下 图 中 , 假设 判断 肿瘤 是 否 为 良性 的 因素 包含 三 种 (肿瘤 的 颜色 、 形 状 大 小 以 及 肿瘤 的 
核 分 裂 状况 ), 如 需 识别 肿瘤 是 否 为 良性 , 可 以 构造 一 个 4x + By + Cz 十 D = 0 的 切割 面 进行 判断 。 


13.1.1 距离 公式 的 介绍 


在 正式 介绍 SVM 模型 之 前 , 需要 讲解 一 些 点 与 直线 以 及 平行 线 之 间 的 距离 公式 , 因为 在 SVM 
模型 的 思想 中 会 涉及 距离 的 计算 .假设 二 维 空间 中 存在 一 个 点 (xo, yo), 对 于 直线 4x 十 By 十 C = 0 而 
言 ， 点 到 直线 的 距离 可 以 表示 为 : 

4 Lot Byo td 
V42 十 52 
假设 二 维 空间 中 存在 两 条 平行 线 Ax + By + C1 = 0 和 4x 十 By 十 Cz =0， 则 它们 之 间 的 距离 可 
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图 13-2 所 示 即 为 两 种 距离 的 图 形 表示 。 
AxtBy+C=0 









Ax+By+C2=0 


Ax+By+C1=0 


图 13-2 点 与 直线 以 及 平行 线 之 间距 离 的 示意 图 


13.1.2 SVM 的 实现 思想 


正如 前 文 所 介绍 的 ，SVM 模型 的 核心 是 构造 一 个 “ 超 平面 ”， 并 利用 “ 超 平面 ”将 不 同类 别 
的 数据 做 划分 。 问 题 是 这 种 具有 分 割 功 能 的 “ 超 平面 ”该 如 何 构造 ， 并 且 如 何 从 无 数 多 个 分 割 面 中 
挑选 出 最 佳 的 “ 超 平面 ”， 只 有 当 这 些 问 题解 决 了 ，SVM 模型 才能 够 起 到 理想 的 分 类 效果 。 

为 了 图 形 的 直观 展现 ， 接 下 来 将 以 二 维 数据 为 例 ， 讨 论 一 个 线性 可 分 的 例子 ， 进 而 使 读者 理 


解 SVM 模型 背后 的 理论 思想 。 


如 图 13-3 所 示 ， 两 个 类 别 的 样本 点 之 间 存 在 很 明显 的 区 分 度 ， 完 全 可 以 通过 直线 将 其 分 割 开 
来 。 例 如 , 图 中 绘制 了 两 条 分 割 直线 , 利用 这 两 条 直线 , 可 以 方便 地 将 样本 点 所 属 的 类 别 判断 出 来 。 
虽然 从 直观 上 来 看 这 两 条 分 割 线 都 没有 问题 , 但 是 哪 一 条 直线 的 分 类 效果 更 佳 呢 (训练 样本 点 的 分 
类 效果 一 致 ， 并 不 代表 测试 样本 点 的 分 类 效果 也 一 样 ) ? 甚至 于 在 直线 上 和 1 之 间 还 存在 无 数 多 个 


分 割 直线 ， 那 么 在 这 么 多 的 分 割 线 中 是 否 存 在 一 条 最 优 的 “ 超 平面 ” 呢 ? 








13-3 ”可 选择 的 分 割 线 
读者 可 以 继续 查看 ， 如 图 13-4 所 示 。 
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解 SVM 模型 背后 的 理论 思想 。 


如 图 13-3 所 示 ， 两 个 类 别 的 样本 点 之 间 存 在 很 明显 的 区 分 度 ， 完 全 可 以 通过 直线 将 其 分 割 开 
来 。 例 如 , 图 中 绘制 了 两 条 分 割 直线 , 利用 这 两 条 直线 , 可 以 方便 地 将 样本 点 所 属 的 类 别 判断 出 来 。 
虽然 从 直观 上 来 看 这 两 条 分 割 线 都 没有 问题 , 但 是 哪 一 条 直线 的 分 类 效果 更 佳 呢 (训练 样本 点 的 分 
类 效果 一 致 ， 并 不 代表 测试 样本 点 的 分 类 效果 也 一 样 ) ? 甚至 于 在 直线 上 和 1 之 间 还 存在 无 数 多 个 


分 割 直线 ， 那 么 在 这 么 多 的 分 割 线 中 是 否 存 在 一 条 最 优 的 “ 超 平面 ” 呢 ? 








13-3 ”可 选择 的 分 割 线 
读者 可 以 继续 查看 ， 如 图 13-4 所 示 。 
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图 134 最 佳 分 割 线 的 选择 


如 图 13-4 所 示 ， 假 设 直线 li 是 1 和 1 之 间 的 某 条 直线 ， 它 同样 可 以 将 两 类 样本 点 准确 无 误 地 划 
分 出 来 。 为 了 能 够 寻找 到 最 优 的 分 割 面 Li, 需要 做 三 件 事 , 首先 计算 两 个 类 别 中 的 样本 点 到 直线 4 的 
距离 ， 然 后 从 两 组 距离 中 各 挑选 出 一 个 最 短 的 (如 图 中 所 示 的 距离 di 和 d，) ,继续 比较 di 和 d，， 
再 选 出 最 短 的 距离 〈 如 图 中 的 心 ) ， 并 以 该 距离 构造 “分 割 带 ”如 图 中 经 平移 后 的 两 条 虚线 ) ; 
最 后 利用 无 穷 多 个 分 割 直线 站 ， 构 造 无 穷 多 个 “分 割 带 ”， 并 从 这 些 “ 分 割 带 ”中 挑选 出 带宽 最 大 
的 Li。 

这 里 需要 解释 的 是 ， 为 什么 要 构造 每 一 个 分 割 线 所 对 应 的 “分 割 带 ”。 可 以 想象 的 是 ，“ 分 
割 带 ” 代 表 了 模型 划分 样本 点 的 能 力 或 可 信 度 ，“ 分 割 带 ” 越 宽 ， 说 明 模型 能 够 将 样本 点 划分 得 越 
清晰 ， 进 而 保证 模型 泛 化 能 力 越 强 ， 分 类 的 可 信 度 越 高 ; 反之 , “分 割 带 ” 越 窄 ， 说 明 模 型 的 准确 
率 越 容易 受到 异常 点 的 影响 , 进而 理解 为 模型 的 预测 能 力 越 弱 , 分 类 的 可 信 度 越 低 。 对 于 “分 割 带 ” 
的 理解 ， 可 以 对 比 图 13-5 所 示 的 两 幅 图 形 。 














图 13-5 ”两 种 带宽 下 的 分 割 线 


如 图 13-5 所 示 ， 左 图 的 带宽 明显 要 比 右 图 宽 很 多 ， 对 于 图 中 的 异常 五 角 星 而 言 ， 左 图 既 可 以 
准确 地 识别 出 它 所 属 的 类 别 ， 但 是 右 图 就 会 识别 错误 。 所 以 验证 了 关于 “分 割 带 ”的 说 明 ， 即 分 割 
线 对 应 的 “分 割 带 ” 越 宽 越 好 ，SVM 模型 就 是 在 努力 寻找 这 个 最 宽 的 “ 带 ”。 

根据 如 上 的 解释 过 程 ， 可 以 将 SVM 模型 的 思想 表达 为 一 个 数学 公式 ， 即 SVM 模型 的 目标 函 
数 为 : 


J(w,b,i) = argw,pmaxmin(d;) 


276 | “从 零 开始 学 Python 数据 分 析 与 挖掘 

















其 中 ， 几 表示 样本 点 i 到 某 条 固定 分 割 面 的 距离 ; min(di) 表 示 所 有 样本 点 与 某 个 分 割 面 之 间距 

离 的 最 小 值 ; argwsmaxmin(di) 表 示 从 所 有 的 分 割 面 中 寻找 “分 割 带 ”最 宽 的 “ 超 平面 ”; 其 中 w 和 b 

代表 线性 分 割 面 的 参数 。 假 设 线性 分 割 面 表示 为 w'x +b = 0, 则 点 到 分 制 面 的 距离 di 可 以 表示 为 : 
_ lw'xi +b| 

ww 


其 中 ，||lwl| 表 示 w 向 量 的 二 范式 ， 即 ||wl| = Eee 很 显然 ， 上 面 的 目标 函数 


J(w,b,i) 其 实 是 无 法 求解 的 ， 因为 对 于 上 述 的 线性 可 分 问题 而 言 , 可 以 得 到 无 穷 多 个 w 和 b， 进 而 无 
法 通过 穷 举 的 方式 得 到 最 优 的 w 和 b 值 。 为 了 能 够 解决 这 个 问题 ， 需 要 换个 角度 求解 目标 函数 
J(w,b,i)， 在 接 下 来 的 几 节 内 容 中 将 会 介绍 有 关 线 性 可 分 的 SYM、 近 似 线 性 可 分 的 SVM 以 及 非 线 
性 可 分 SVM 的 目标 函数 。 








13.2 儿 种 常见 的 SVM 模型 


13.2.1 线性 可 分 的 SVM 


以 二 分 类 问题 为 例 , 假设 某 条 分 割 面 可 以 将 正 负 样 本 点 区 分 开 来 , 并 且 该 分 割 面 用 w'x+p=0 
表示 。 如 果 样 本 点 落 在 分 割 面 的 左 半边 , 则 表示 负 例 ,反之 表示 正 例 , 呈现 的 图 形 如 图 13-6 所 示 。 


w+Dp=0 








图 13-6 线性 可 分 的 SVM 示意 图 


不 妨 将 五 角 星 所 代表 的 正 例 样 本 用 1 表示 ， 将 实心 圆 所 代表 的 负 例 样本 用 -1 表示 ; 图 中 的 实 
体 加 粗 直 线 表示 某 条 分 割 面 ; 两 条 虚线 分 别 表 示 因 变量 y 取 值 为 +1 和 -1 时 的 情况 ,它们 与 分 割 面 平 
行 。 从 图 中 可 知 , 不 管 是 五 角 星 代表 的 样本 点 ， 还 是 实心 圆 代表 的 样本 点 ， 这 些 点 均 落 在 两 条 虚线 
以 及 虚线 之 外 ， 则 说 明 这 些 点 带 入 到 方程 w'x +b 所 得 的 绝对 值 一 定 大 于 等 于 1。 进 而 可 以 说 明 如 
果 点 对 应 的 取 值 越 小 于 -1， 该 样本 为 负 例 的 可 能 性 越 高 ， 点 对 应 的 取 值 越 大 于 +1, 样本 为 正 例 的 可 
能 性 越 高 。 所 以 ， 根 据 如 上 的 图 形 就 可 以 引申 出 函数 间隔 的 概念 ， 即 数学 表达 式 为 : 

= yi x (wxit+b) 
其 中 ，y; 表 示 样 本 点 所 属 的 类 别 ， 用 +1 和 -1 表示 。 当 w'xi + b 计 算 的 值 小 于 等 于 -1 时 ， 根 据 


第 13 章 SVM 模型 的 应 用 | 277 





分 割 面 可 以 将 样本 点 xi; 对 应 的 y; 预 测 为 -1; 当 w'xi + 2 计算 的 值 大 于 等 于 +1 时 , 分 制 面 会 将 样本 点 x; 
对 应 的 yi; 预测 为 +1。 故 利用 如 上 的 乘积 公式 可 以 得 到 线性 可 分 的 SVM 所 对 应 的 函数 间 隐 满足 起 宇 1 
的 条 件 。 

直接 将 函数 间隔 利用 到 目标 函数 /(w,b, 站 中 会 存在 一 个 次 端 ， 即 当 分 割 面 中 的 参数 w 和 4b 同比 
例 增加 时 , 所 对 应 的 起 值 也 会 同比 例 增加 ,但 这 样 的 增加 对 分 割 面 w'x 十 = 0 来 说 却 丝毫 没有 影响 。 
例如 ， 将 w 和 b 同 比例 增加 1.5 倍 ， 得 到 的 雹 值 也 会 被 扩大 1.5 倍 ， 而 分 割 面 w'x + b = 0 是 没有 变化 
的 。 所 以 ， 为 了 避免 这 样 的 问题 ， 需 要 对 函数 间隔 做 约束 ， 例 如 单位 化 处 理 ， 进 而 函数 间隔 可 以 重 
新 表示 为 : 

让 yxwxit+b) lw'xit+b| 


= = = d; 
Ti wll IIwl TIwi 


巧妙 的 是 ,将 函数 间隔 做 单位 化 处 理 后 ,得 到 的 y; 值 其 实 就 是 点 xi; 到 分 制 面 w'x + = 0 的 距离 ， 
所 以 yi 被 称 为 几何 间隔 。 有 了 几何 间隔 这 个 概念 ， 再 来 看 目标 函数 / (wb, ii): 
J(w,b,i) = argwpmaxmin(di) 
yi x (w'xi +b) 
lwll 


三 argwomax Tp ™in x (w'xi +b)) 





= argwpmaxmin 


1 
= argwpmax —min(F) 
gwp 1wl 加 


正如 前 文 所 提 ， 线 性 可 分 的 SVM 所 对 应 的 函数 间隔 满足 芒 壹 1 的 条 件 ， 故 min( 用 就 等 于 1。 
所 以 ， 可 以 将 目标 函数 /(w,b,i) 等 价 为 如 下 的 表达 式 : 


1 
Wi 
| lIwll 


S.t. yix (wxi+b)==1 
由 于 最 大 化 二 与 最 小 化 :|w 民 是 等 价 的 ， 故 可 以 将 上 面 的 表达 式 重新 表示 为 : 


lwll 
二 
| 


Ss.t. yix (w'xi+b)==1 

现在 的 问题 是 如 何 根据 不 等 式 的 约束 , 求解 目标 函数 :|hw|? 的 最 小 值 ， 关于 这 类 凸 二 次 规划 问 
题 的 求解 需要 使 用 到 拉 格 朗 日 乘 子 法 。 

首先 介绍 一 下 拉 格 朗 日 乘 子 法 的 相关 知识 点 ， 假 设 存在 一 个 需要 最 小 化 的 目标 函数 f(x)， 并 
且 该 目标 函数 同时 受到 g(x) 夺 0 的 约束 。 如 需 得 到 最 优化 的 解 ， 则 需要 利用 拉 格 朗 日 对 偶 性 将 原始 
的 最 优化 问题 转换 为 对 偶 问 题 ， 即 : 

min(f x)) = minymaxa(L(x, 1)) 
= minemaxa(f (x) + Pi Xi9i(x)) 

其 中 ，f(x) + fi1Xigi(x) 为 拉 格 朗 日 函数 ; 敌 即 为 拉 格 朗 日 乘 子 ， 且 1 > 0。 上 式 就 称 为 广义 
拉 格 朗 日 函数 的 极 小 极 大 问题 。 在 求解 极 小 值 问 题 时 , 还 需要 利用 对 偶 性 将 极 小 极 大 问题 转换 为 极 
大 极 小 问题 ， 即 : 
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min(f (x)) 三 maxaminx(L(x, DD) 
= maxaminx (f(x) + E14i9i(x)) 
利用 对 偶 性 将 最 优化 问题 做 等 价 转换 是 有 好 处 的 ， 一 方面 在 极 小 值 求解 中 无 须 对 拉 格 朗 日 函 
数 中 的 乘 子 A 求 偏 导 ， 另 一 方面 使 计算 过 程 变 得 易于 理解 。 所 以 ， 在 计算 目标 函数 的 极 值 时 ,分 两 
步 求 偏 导 即 可 ， 先 对 极 小 值 部 分 做 x 的 偏 导 ， 再 对 极 大 值 部 分 做 4i; 偏 导 ， 通 过 两 步 运 算 ， 最 终 计算 
出 目标 函数 所 对 应 的 参数 值 。 
根据 如 上 介绍 的 拉 格 妆 日 乘 子 法 的 数学 知识 , 就 可 以 将 线性 可 分 SVM 模型 的 目标 函数 重新 表 


1 
min lwl 2 = maxeminwp(L(w,b, ai)) 


1 n 

= maxaminw,p (ne 二 ai(1—yix (wxit+ 可 
名 n 
全 

=maxaeminws| lw 一 > aiyix (w'xi+b)+ a 

Gr- 名 
所 以 ， 第 一 步 要 做 的 就 是 求解 拉 格 朗 日 函数 的 极 小 值 ， 即 minwp(L(w,b, ai))。 关 于 这 部 分 的 
求解 就 需要 对 函数 L(w,b,ai) 中 的 参数 w 和 b 分 别 求 偏 导 ， 并 令 导 函数 为 0: 


AL(w, b, a 
四 ) sw pi 


i=1 


oL(w, b, a) . 
一 


i=1 


将 如 上 两 个 导 函 数 为 0 的 等 式 重新 带 入 目标 函数 minzlhwl? 中 ， 具体 的 推导 过 程 如 下 : 


n 
1 于 
minz lw = maxa (in 十 > ai(1— yi x (w'xit+ 可 ) 


i=1 


n n 
1 
= maxa (2 十 > Ci 一 > QiyiW Xi 一 > oo 


i=1 i=1 i=1 
n n 


n 
= maxg G W > QiyiXi 十 ai 一 WwW > Qiyixi—b > yam) 


i=1 i=1 i=1 


Re 
思 
We 
Ra 
过 
心 
中 
ES 
1 
己 
Se 


i=1 


Ln n 
=maxa| -= aia yiyi (Xi i) 十 > ai—0 
所 i=1 








所 以 ， 最 终 可 以 将 最 原始 的 目标 函数 重新 改写 为 下 方 的 等 价目 标 问 题 : 


第 13 章 SVM 模型 的 应 用 | 279 





n n n 
ming > > aicjyiyj( 和 x) 一 > ai 
i=1 产 1 i1 
n 
St > aiyi=0 
t=1 
ai 三 0 


其 中 ，(xi :%) 表 示 两 个 样本 点 的 内 积 。 如 上 就 是 关于 线性 可 分 SVM 目标 函数 的 构建 、 演 变 
与 推导 的 全 过 程 了 ， 最 终 根据 已 知 样本 点 (xi, 0) 计 算 > ZE Qiqyyiyj(xi* 为) 一 E10i 的 极 小 值 ， 
并 利用 拉 格 朗 日 乘 子 wi 的 值 计算 分 割 面 w'x 十 b = 0 的 参数 w 和 b: 


n 


六 = > Coyixi 


i=1 
n 


b=y 一 >》 ay() 
[en 
其 中 ,在 计算 时， 需要 固定 某 个 yj， 即 从 多 个 拉 格 朗 日 乘 子 qi 中 任意 挑选 一 个 大 于 0 的 /样本 
与 后 面 的 和 式 相 减 。 


13.2.2 一 个 手动 计算 的 案例 


为 了 方便 读者 理解 线性 可 分 SVM 模型 是 如 何 运作 和 计算 的 ， 接 下 来 举 一 个 简单 的 例子 (案例 
来 源 于 李 航 老师 的 《统计 学 习 方 法 》 一 书 ) ， 并 通过 手动 方式 对 其 计算 。 

如 图 13-7 所 示 ， 假 设 样本 空间 中 的 三 个 点 可 以 通过 线性 可 分 的 SVM 进行 分 类 ， 不 妨 用 实心 
圆 点 代表 负 例 、 五 角 星 代 表 正 例 。 如 何 利用 前 面 介绍 的 理论 知识 找到 最 佳 的 “ 超 平 面 ” 呢 ? 计 算 过 
程 如 下 : 








图 13-7 线性 可 分 SVM 的 计算 案例 
第 一 步 : 将 样本 点 带 入 目标 函数 


1 
minzllwll? = Fa 
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1 
= mina(z (18af + 25a2 + 2a3 + 42aaa> 





12alas 一 14azaas) 一 aa — a2 — a3) 
第 二 步 : 将 ai + az 一 3 = 0 带 入 上 式 
二 年 2 
min7lw| = 大 oO 
重 
和 mina(z (18af 十 25o +2(a1 + az)2 


十 42aaa2z 一 12aa (aa + az) 一 14az(ai 二 az)) 一 aa 一 az 一 (ai 十 az)) 


= ming (4 十 二 吕 二 10aaa2z — 2a1 — 2a2 


第 三 步 : 对 ai 求 偏 导 ， 并 令 导 函数 为 0 
Ma _ 
5 三 ai 十 10cz 一 2=0 
of _ 四 
De 13a2z + 10ai -2=0 
经 计算 可 知 ，oa = 3 az = 一 1， 很 显然 &2 并 不 满足 a; 宇 0 的 条 件 ， 目 标 函 数 的 最 小 值 就 需要 在 
边界 处 获得 ， 即 令 其 中 的 aa = 0 或 az = 0， 重 新 计算 使 f(a) 达 到 最 小 的 qa:。 当 a = 0 时 ， 
f(a)= Ba? 一 2az, 对 wz 求 偏 导 , 得 到 wa = 0, az = 去 ,f(a) = 三 当 @a, = 0 时 ,F(c) = 4a? — 2ai， 
对 a 求 偏 导 ， 得 到 qi =3，az = 0， f(a) = 一。 经 过 对 比 发 现 ，f(a) = 一 2 时 ， 目 标 函 数 最 小 ， 故 
最 终 确定 a = aa = 了 aa =0。 
最 后 利用 求解 参数 w 和 b 的 计算 公式 ， 进 一 步 可 以 得 到 分 割 “ 超 平面 ”的 表达 式 : 
生计 


生 和 
W=—x1x (3, x1x(4,3)——x1x(1,1)=|(s,= 
W=FX1X(33) +0x1x(43) -Fx1x(1D) (3 2) 





b=1— 人 X + x (3,3) . @3) 一 (1x0x(33).(43)) 
十 ( xix (3,3): ay) = -2 


根据 如 上 计算 过 程 ， 得 到 参数 w 和 4b 的 估计 值 ， 并 利用 前 文 介绍 的 分 割 “ 超 平面 ”表达 式 
w'x 十 b = 0 进一步 得 到 “ 超 平面 ”方程 : 
于 


G 3 2)-2=0 i 
fl | ,tk 
2’2) \x; 2 


值得 注意 的 是 ， 对 比 图 13-7 中 的 4、B、5C 三 点 和 拉 格 朗 日 乘 子 cx:、az 和 as， 当 ai 到 0 时 ， 对 
应 的 样本 点 会 落 在 两 条 虚线 之 上 ， 否 则 样本 点 在 “分 割 带 ” 之 外 。 对 于 虚线 之 上 的 样本 点 ， 称 之 为 
支持 向 量 ， 即 它们 是 构成 SVM 模型 的 核心 点 ， 而 其 他 点 对 “ 超 平面 ”w 和 的 计算 没有 任何 贡献 。 
所 以 ,这 就 验证 了 前 文中 提 到 的 模型 具有 很 好 的 鲁 棒 性 以 及 可 以 避免 “维度 灾难 ”的 发 生 这 些 优点 。 

如 上 的 简单 案例 就 是 关于 线性 可 分 SVM 模型 在 寻找 分 割 “ 超 平面 ”的 过 程 , 但 该 模型 成 立 的 
一 个 大 前 提 就 是 函数 间隔 满足 元 三 1 的 条 件 。 但 在 实际 情况 中 , 样本 点 很 难 通 过 线性 可 分 SVM 模型 
对 其 划分 ， 即 很 难保 证 间隔 一 定 满足 元 宇 1 的 前 提 。 如 果 该 条 件 不 满足 ,该 如 何 利 用 SVM 模型 对 数 
据 做 分 类 判断 呢 ? 
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13.2.3 ”近似 线性 可 分 SVM 





近似 线性 可 分 SVM 通常 也 被 称 为 线性 SVM， 主 要 是 为 了 解决 样本 点 不 满足 函数 间隔 大 于 等 
于 1 的 分 类 问题 。 该 算法 解决 问题 的 思路 是 非常 简单 的 , 就 是 对 每 一 个 样本 点 的 函数 间隔 加 上 一 个 
松弛 因子 上 ， 并 且 扣 过 0。 为 帮助 读者 理解 松弛 因子 ， 可 以 查看 图 13-8 所 呈现 的 效果 。 





wx+b=0 
' \ wx+b=1 





13-8 近似 线性 可 分 SVM 的 示意 图 


如 图 13-8 所 示 ， 绝 大 多 数 样本 点 都 是 线性 可 分 的 ， 仅 有 一 个 异常 点 落 在 “分 割 带 ”内 ， 很 明 
显 该 点 与 “ 超 平面 ” 之 间 的 函数 间隔 是 小 于 1 的 。 如 果 基 于 图 13-8 中 的 点 硬 要 构造 一 个 线性 可 分 
的 SVM 模型 〈 确 保 所 有 样本 点 都 落 在 “分 割 带 ”之 外 ， 且 “分 割 带 ” 之 间 的 距离 为 ) ， 可 能 这 
样 的 “ 超 平面 ” 无 法 搜寻 得 到 ， 故 只 能 牺牲 少 部 分 异常 点 的 利益 ， 确 保 大 部 分 的 样本 点 都 能 够 被 线 
性 可 分 。 

所 以 ,在 近似 线性 可 分 的 SVM 模型 中 ,为 了 使 部 分 异常 点 的 函数 间隔 满足 yx x (w'xi +b) 宇 1 
的 条 件 ， 就 需要 给 函数 间隔 加 入 松弛 因子 奈 ， 确 保 新 的 函数 间隔 大 于 等 于 1， 即 : 

yi Xx (w'xi+b)+éi=1 


从 函数 间隔 的 公式 可 知 ， 当 大 部 分 的 样本 点 与 分 割 面 的 函数 间隔 均 大 于 等 于 1 时 ， 对 应 的 松 
弛 因子 各 应 该 为 0， 当 部 分 异常 点 的 函数 间隔 不 满足 大 于 等 于 1 的 条 件 时 ， 松 弛 因子 和 就 会 起 效 。 

当 函 数 间隔 的 约束 条 件 发 生变 化 时 ， 对 应 的 目标 函数 也 需要 有 所 调整 ， 即 在 原始 的 目标 函数 
基础 之 上 加 上 松弛 因子 和 所 产生 的 代价 。 新 的 目标 函数 可 以 表示 为 : 





n 


1 
minzlwl? + CD a 
i=1 
St. yix(wxit+b)1—& 


喜 二 0 


其 中 ，C 为 大 于 0 的 惩罚 系数 ， 它 是 用 来 平衡 “分 割 带 ”带宽 和 误 分 类 样本 点 个 数 的 系数 。 征 
罚 系数 越 大 ， 模 型 对 误 判 样本 点 的 惩罚 力度 就 越 大 ,为 避免 惩罚 ， 提 高 正确 分 类 样本 点 的 个 数 ， 不 
得 不 牺牲 “分 割 带 ”的 带宽 ， 进 而 使 模型 在 训练 集 上 的 犯错 率 降低 ， 但 这 样 做 通常 会 导致 模型 的 过 
拟 合 ; 惩罚 系数 越 小 ， 模 型 对 误 判 样本 点 的 惩罚 力度 就 越 小 ， 分 类 正确 与 否 ， 不 再 是 模型 关心 的 重 
点 ， 其 关心 的 只 是 “分 割 带 ”的 带宽 越 大 越 好 ， 但 这 样 做 通常 会 导致 模型 无 意义 ， 因 为 它 已 经 从 拟 


合 了 。 
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根据 拉 格 朗 日 对 偶 性 的 数学 知识 ， 可 以 将 如 上 的 目标 函数 重新 表示 为 : 


n 
1 
min3 lwl? + CD § = maxeaminw si(Lw, bt 20) 


i=1 


n 
下 
= maxexminwps,(Z wl + C > a 


i=1 
-> iyix (wxit+b) + —1) -2 a5) 
1 11 


接 下 来 ， 对 上 面目 标 函 数 中 的 minw,p,s,(L(w,b,&, ai,Xi)) 部 分 求解 极 小 值 ， 即 对 拉 格 朗 日 函数 
L(w,b,&i,Qi 加) 中 的 参数 wy、b 和 束 求 偏 导 ， 并 令 导 函数 为 0: 


和 人 1) ce >eomr。 


aL(w,b, A i) =》 a 三 


i=1 


oaL(w, “ 人) 
9 
再 将 如 上 得 到 的 等 式 重新 带 回 到 拉 格 朗 日 函数 L(w, b, ,ai,4i) 中 ， 进 一 步 可 以 得 到 目标 函数 
zwll? 十 CP-15 的 极 大 值 剖 ee 从 而 便于 求解 参数 a 和 4 的 值 。 中 间 的 推导 过 程 与 线性 可 分 
SVM 模型 类 似 ， 这 里 直接 给 出 结果 


mina 全 Qi yiyj (Xi 为 ) — . " 


i=1 j=1 i=1 


=C—-a—-Ahi=0 


> aiy =0 
i=1 
0<ai<C 
需要 注意 的 是 ,在 推导 过 程 中 ， 有 关 松 弛 因子 & 一 项 没有 在 如 上 的 目标 函数 中 出 现 ， 是 因为 受 
到 C 一 Qi 一 Xi = 0 的 条 件 而 被 抵消 。 读 者 可 能 已 经 发 现 ， 如 上 的 结果 形式 与 线性 可 分 的 SVM 非常 
相似 ， 所 不 同 的 是 拉 格 朗 日 因子 wi 的 范围 受到 了 惩罚 项 C 的 影响 ， 即 上 式 中 的 约束 0 入 w 入 C。 它 是 
通过 其 他 几 个 约束 条 件 获得 的 : 由 于 C - wi 一 X= 0， 且 ai 过 0、 大 过 0， 因 此 C 一 Qi = 不 过 0， 进 而 
得 到 C 三 a; 宇 0。 
如 上 的 结果 就 是 关于 近似 线性 可 分 SVM 目标 函数 的 构建 和 推导 过 程 ， 可 以 根据 已 知 样本 点 
(xpyiD， 计算 > iQyyiyj(Xi*) 一 1 ai 的 极 小 值 ， 并 利用 拉 格 朗 日 乘 子 w 的 值 计 算 分 割 
面 w'x 十 b = 0 的 参数 w 和 b: 


同样 需要 注意 的 是 , 在 计算 8 时, 首先 需要 固定 某 个 yj, 其 必须 是 满足 0 < ui < C 条 件 的 某 个 yj; 
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然后 从 所 有 ai 中 寻找 满足 0 < wi < C 约 束 的 支持 向 量 x; 和 类 别 值 y;:， 用 来 计算 第 二 项 中 的 和 。 
Python 中 提供 了 有 关 线 性 可 分 SVM 或 近似 线性 可 分 SVM 的 实现 功能 ,读者 只 需要 导入 sklearn 
模块 ， 并 调用 svm 子 模块 中 的 LinearSVC 类 即 可 ， 有 关 该 “类 ”的 语法 和 参数 含义 如 下 : 
LinearSVC (penalty='12', loss='squared hinge', dual=True, tol=0.0001, C=1.0, 
multi class='ovr', fit intercept=True, intercept scaling=1, 
class weight=None, verbose=0, random state=None, max iter=1000) 

@ penalty: 用 于 指定 一 范式 或 二 范式 的 惩罚 项 ， 默 认为 二 范式 。 

@ loss: 用 于 指定 某 种 损失 函数 ， 可 以 是 合 页 损失 函数 ('\hinge' )， 也 可 以 是 合 页 损失 函数 的 平 
方 ('squared_hinge' )， 后 者 是 该 参数 的 默认 值 。 

@ dual: bool 类 型 参数 ， 是 否 对 目标 函数 做 对 偶 性 转换 ， 默 认为 True， 即 建 模 时 需要 利用 拉 格 
朗 日 函数 的 对 偶 性 ; 但 样本 量 超过 变量 个 数 时 ， 该 参数 优先 选择 False。 

日 tol: 用 于 指定 SVM 模型 狗 代 的 收 化 条 件 ， 默 认为 0.0001。 

@ C: 用 于 指定 目标 函数 中 松弛 因子 的 惩罚 系数 值 ， 默 认为 1。 

@ multi class: 当 因 变量 为 多 分 类 问题 时 ， 用 于 指定 算法 的 分 类 策略 。 如 果 为 'ov， 表 示 采 用 
one-vs-rest 策略 ; 如 果 为 'crammer_singer', 表示 联合 分 类 策略 ,尽管 该 策略 具有 更 好 的 准确 率 ， 
但 是 其 运算 过 程 将 花费 更 多 的 时 间 。 

”fit_intercept: bool 类 型 参数 ， 是 否 拟 合 线性 “ 超 平面 ”的 截 距 项 ， 默 认为 True。 

@ intercept_ scaling: 当 参 数 fit_intercept 为 True 时 ， 该 参数 有 效 ， 通 过 给 参数 传递 一 个 浮 点 值 ， 
就 相当 于 在 自 变 量 X 珑 阵 中 添加 一 常数 列 ， 默 认 该 参数 值 为 1。 

@ class_weight: 用 于 指定 因 变 量 类 别 的 权重 , 如果 为 字典 , 则 通过 字典 的 形式 {class_label:weight} 
传递 每 个 类 别 的 权重 ; 如 果 为 字符 囊 'balanced'， 则 每 个 分 类 的 权重 与 实际 样本 中 的 比例 成 反 
比 ， 当 各 分 类 存在 严重 不 平衡 时 ， 设 置 为 balanced' 会 比较 好 ; 如 果 为 None， 则 表示 每 个 分 类 
的 权重 相等 。 

@ “verbose: bool 类 型 参数 ， 是 否 输出 模型 远 代 过 程 的 信息 ， 默 认为 0， 表示 不 输出 。 

e@ random_state: 用 于 指定 随机 数 生成 器 的 种 子 。 

@ max_iter: 指定 模型 求解 过 程 中 的 最 大 和 迭代 次 数 ， 默 认为 1000。 


如 上 LinearSVC 类 中 提 到 了 有 关 损失 函数 的 参数 loss, 该 参数 可 以 传递 两 种 损失 函数 , 分 别 是 
合 页 损失 或 合 页 损失 的 平方 。 这 里 简单 介绍 一 下 有 关 SVM 模型 中 的 损失 函数 。 

如 图 13-9 所 示 ， 右 图 中 的 x 轴 表 示 SVM 模型 的 函数 间隔 ，y 轴 表 示 SVM 模型 的 损失 值 。 由 
前 文 介绍 的 知识 可 知 , 如 果 所 有 样本 点 的 函数 间隔 均 大 于 等 于 1, 则 它们 可 以 通过 线性 可 分 的 SVM 
模型 进行 分 类 ， 并 且 分 类 的 准确 率 为 100%， 故 每 一 个 样本 点 的 损失 值 均 为 0， 如 果 样 本 点 的 函数 
间隔 不 满足 大 于 等 于 1 时 ， 需 要 借助 于 松弛 因子 上 ， 函 数 间隔 越 小 于 1， 对 应 的 吉 越 大 ， 模 型 损失 
也 越 大 。 故 合 页 损失 函数 可 以 用 图 13-9 表示 ， 它 的 数学 表达 式 可 以 写成 : 


Loss= >》 0L -ywxz+DD = > a 
i=1 i=1 


其 中 ，[z]+ 表 示 取 正 值 的 意思 ， 当 z > 0 时 ， 返 回 z 本 身 ， 否 则 返回 0。 假 如 读者 觉得 该 公式 比 
较 抽象 ， 可 以 对 比 左 图 ， 以 图 中 的 x1、xz 和 xs 为 例 ， 如 果 样 本 点 xi 刚 好 落 在 “分 割 带 ”上 ， 其 函数 
间隔 为 1， 对 应 的 五 为 0; 如 果 样 本 点 xz 落 在 “分 割 带 ”之 内 ， 且 属于 正确 分 类 的 一 边 时 ， 则 对 应 
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的 总 为 大 于 0 且 小 于 1 的 值 ， 即 1-y;(w'x +b); 如 果 样 本 点 xs 同样 落 在 “分 割 带 ” 之 内 ， 但 属于 错 
误 分 类 的 一 边 时 ，yi(w'x 十 办 为 负数 ， 所 以 1-yi(w'x +b) 就 是 大 于 1 的 值 ， 即 对 应 的 如 大 于 1。 











0 1 yi(w'xi + b) 
13-9 合 页 损失 函数 示意 图 


13.2.4 非 线性 可 分 SVM 


前 面 两 节 所 介绍 的 都 是 基于 线性 可 分 或 近似 线性 可 分 的 SVM， 如 果 样本 点 无 法 通过 某 个 线性 
的 “ 超 平面 ”对 其 分 割 时 ， 使 用 这 两 种 SVM 将 对 样本 的 分 类 产生 很 差 的 效果 。 这 个 时 候 就 需要 构 
建 非 线性 可 分 的 SVM， 该 模型 的 核心 思想 就 是 把 原始 数据 扩展 到 更 高 维 的 空间 ， 然 后 基于 高 维 空 
间 实 现 样本 的 线性 可 分 。 关 于 该 思想 的 实现 ， 读 者 可 以 对 比 图 13-10 所 示 的 两 由 图 形 。 





13-10 ” 非 线 性 可 分 SVM 的 示意 图 


如 图 13-10 所 示 , 假设 在 左 图 的 二 维 空间 中 存在 两 种 类 别 的 样本 点 , 不 管 以 何 种 线性 的 “ 超 平 
面 ”都 无 法 对 其 进行 正确 分 类 ; 但 如 果 将 其 映射 到 右 图 中 的 三 维 空间 中 , 就 可 以 恰到好处 地 将 其 区 
分 开 来 ， 而 图 中 的 切割 平面 就 是 三 维 空间 下 的 线性 可 分 “ 超 平面 ”。 

所 以 ， 非 线性 SVM 模型 的 构建 需要 经 过 两 个 步骤 , 一 个 是 将 原始 空间 中 的 样本 点 映射 到 高 维 
的 新 空间 中 ， 另 一 个 是 在 新 空间 中 寻找 一 个 用 于 识别 各 类 别 样本 点 线性 “ 超 平面 ”。 假 设 原始 空间 
中 的 样本 点 为 x， 将 样本 通过 某 种 转换 中 Cx) 映 射 到 高 维 空间 中 ， 则 非 线性 SVM 模型 的 目标 函数 可 
以 表示 为 : 
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ming (2 Cia yiyj (¢ 2 .中 ( 巧 ))- py 3 


st. pa aiyi=0 
0<a<c 
其 中 , 内 积 中 (xi) . 中 (为 ) 可 以 利用 核 函 数 替 换 , 即 K(xi, xj) = 中 (xi) :中 (为 )。 对 于 上 式 而 言 ， 
同样 需要 计算 最 优 的 拉 格 朗 日 乘 子 wi ， 进 而 可 以 得 到 线性 “ 超 平面 ”w 与 bp 的 值 : 
W= ) Ryib(x) 


i=1 





n 


b=y,— Dyk x) 


i=1 
现在 的 问题 是 , 什么 是 核 函 数 , 常用 的 核 函 数 都 有 哪些 。 对 于 核 函 数 的 定义 ,可 以 这 样 理解 : 
假设 原始 空间 中 的 两 个 样本 点 为 (xi, )， 在 其 扩展 到 高 维 空间 后 ， 它 们 的 内 积 中 (xi) : 中 (为) 如 果 
等 于 样本 点 (xp zj) 在 原始 空间 中 某 个 函数 的 输出 ， 那 么 该 函数 就 称 为 核 函 数 。 
可 能 读者 在 理解 这 句 关于 核 函 数 的 定义 时 比较 困惑 ， 这 里 不 妨 举 个 简单 的 例子 加 以 说 明 。 假 
设 二 维 空间 中 存在 两 点 x1 = GY, xX 四) 和 xz = (x 人 Dx 四 ), 可 以 利用 某 个 映射 中 (xi) 将 其 对 应 到 三 维 
空间 中 ((x 中 ) ,Vax 人 9x 的 , (x 的) )， 所 以 三 维 空间 中 的 内 积 可 以 表示 为 : 
pe): (2) = (CO) Vax, x9) ) (Ce Vax tx, x) ) 
= (x x +2x Ox Ox Ox® + (xx 
细心 的 读者 一 定 会 发 现 ， 中 (x1) . 中 (x2) 的 结果 实际 上 是 一 个 和 的 平方 项 ， 故 一 定 存 在 一 个 核 
函数 , 使 得 样本 点 za 和 xz 可 以 在 二 维 空间 中 同样 得 到 上 方 的 结果 , 即 核 函 数 为 K( xi, ) = (xi 罗 )”， 
所 以 
Km = (09,0) Ge)) 
= (x Hx) +x Hx) 
= (x Hx) +2x Ox Ox Vx® + (xDxoD 
= q(x1): P(x2) 
很 显然 ， 同 样 的 结果 ， 运 用 核 函数 的 方法 要 比 高 维 空间 中 的 内 积 更 加 简单 和 高 效 。 


13.2.5” 几 种 常用 的 SVM 核 函数 


在 实际 应 用 中 ， 都 有 哪些 常用 的 核 函数 可 供 选 择 和 使 用 呢 ? 具体 如 下 : 
1. 线性 核 函数 
核 函 数 的 表达 式 为 K( xi, 加 ) = xi* 好 ， 故 对 应 的 分 割 “ 超 平面 ”为 : 
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f(x) = > ay XiX 十 b -> ay x 可 
线性 核 函 数 实际 上 就 是 线性 可 分 的 SVM 模型 。 
2. 多 项 式 核 函 数 
核 函 数 的 表达 式 为 K( xi, 为) = (y( 吝 为) +r)， 故 对 应 的 分 割 “ 超 平面 ”为 : 


HGD = yy +DP+ @ -> evry(x: + )) 
i=1 i=1 
其 中 ，y 和 p 均 为 多 项 式 核 函 数 的 参数 。 在 上 面 的 例子 中 ， 核 函数 K( xz, xz) 实 际 上 就 是 多 项 式 
核 函 数 ， 其 对 应 的 y 为 1、r 为 0。 
3. 高 斯 核 函数 
核 函 数 的 表达 式 为 K( xb 芒 ) = exp (yl 上 x 一 为 上 )， 故 对 应 的 分 割 “ 超 平面 ”为 


HGD = > ayiexp(-ylxi— xl) + @ -> ayexp (lx — s 门 ) 


‘=1 局: 
其 中 ，7 为 高 斯 核 函 数 的 参数 ， 该 核 函 数 通常 也 被 称 为 径 向 基 核 函数 。 
4. Sigmoid 核 函数 
核 函 数 的 表达 式 为 K( xi 六 ) = tanh(y(xi* 为 ) +r)， 故 对 应 的 分 割 “ 超 平面 ”为 : 


天 (三 > Cyitanh(y(xi: x) +7)+ G 一 六 Ciyitanh(y( xi Xi) + ]] 
t=1 i=1 
如 上 提供 了 四 种 常用 的 核 函数 ， 在 实际 应 用 中 ，SVM 模型 对 核 函 数 的 选择 是 非常 敏感 的 ， 所 
以 需要 通过 先 验 的 领域 知识 或 者 交叉 验证 的 方法 选 出 合理 的 核 函数 。 大 多 数 情况 下 , 选择 高 斯 核 函 
数 是 一 种 相对 偷懒 而 有 效 的 方法 ， 因 为 高 斯 核 是 一 种 指数 函数 ， 它 的 泰勒 展开 式 可 以 是 无 穷 维 的 ， 
即 相当 于 把 原始 样本 点 映射 到 高 维 空间 中 。 
关于 非 线 性 可 分 SVM 模型 的 功能 实现 ， 可 以 利用 Python 中 的 sklearn 模块 ， 读 者 可 以 通过 调 
用 svm 子 模 块 中 的 SVC 类 轻松 搞定 。 接 下 来 介绍 一 下 该 “类 ”的 语法 和 参数 含义 : 
SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, 
probability=False, tol=0.001, cache_size=200, class weight=None, 
verbose=False, max iter=-1, decision function shape='ovr', random state=None) 
@ C: 用 于 指定 目标 函数 中 松弛 因子 的 惩罚 系数 值 ， 默 认为 1。 
”kemnel: 用 于 指定 SVM 模型 的 核 函 数 ,该 参数 如 果 为 linear, 就 表示 线性 核 函 数 ; 如 果 为 poly， 
就 表示 多 项 式 核 函 数 ， 核 函数 中 的 r 和 pp 值 分 别 使 用 degree 参数 和 gamma 参数 指定 ; 如 果 为 
"rbf， 表 示 径 向 基 核 函数 ， 核 函数 中 的 了 参数 值 仍 然 通 过 gamma 参数 指定 ; 如 果 为 'sigmoid'， 
表示 Sigmoid 核 函 数 , 核 函 数 中 的 r 参数 值 需 要 通过 gamma 参数 指定 ; 如 果 为 precomputed'， 
表示 计算 一 个 核 短 阵 。 
@@ degree: 用 于 指定 多 项 式 核 函 数 中 的 p 参数 值 。 
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gamma: 用 于 指定 多 项 式 核 函 数 或 径 向 基 核 函数 或 Sigmoid 核 函 数 中 的 T 参 数值 。 

coef0: 用 于 指定 多 项 式 核 函数 或 Sigmoid 核 函 数 中 的 r 参 数值 。 

shrinking: bool 类 型 参数 ， 是 否 采用 启发 式 收缩 方式 ， 默 认为 True。 

probability: bool 类 型 参数 ， 是 否 需要 对 样本 所 属 类 别 进行 概率 计算 ， 默 认为 False。 

tol: 用 于 指定 SVM 模型 迭代 的 收敛 条 件 ， 默 认为 0.001。 

cache size: 用 于 指定 核 函 数 运算 的 内 存 空间 ， 默 认为 200M。 

class_weight: 用 于 指定 因 变 量 类 别 的 权重 , 如果 为 字典 , 则 通过 字典 的 形式 {class_label:weight} 
传递 每 个 类 别 的 权重 ; 如 果 为 字符 囊 'balanced'， 则 每 个 分 类 的 权重 与 实际 样本 中 的 比例 成 反 
比 ， 当 各 分 类 存在 严重 不 平衡 时 ， 设 置 为 balanced' 会 比较 好 ; 如 果 为 None， 则 表示 每 个 分 类 
的 权重 相等 。 


@ Verbose: bool 类 型 参数 ， 是 否 输 出 模型 迭代 过 程 的 信息 ， 默 认为 0， 表 示 不 输出 。 
emax_iter: 指定 模型 求解 过 程 中 的 最 大 迭代 次 数 ， 默 认为 -1， 表 示 不 限制 迭代 次 数 。 
® decision_function_shape: 用 于 指定 SVM 模型 的 决策 函数 形状 ， 如 果 为 /0vo'， 即 one-vs-one 的 


分 类 策略 ， 则 决策 函数 形状 的 形状 为 [样本 数量 ,类 别 个 数 *( 类 别 个 数 -1)/2]; 如 果 为 'ovp， 即 
one-vs-rest 的 分 类 策略 ， 则 决策 函数 形状 的 形状 为 [样本 数量 ,类 别 个 数 ]; 默认 为 None， 在 
skleam 版 本 为 0.18 及 以 上 时 ，None 值 对 应 的 默认 选项 为 '/Ovr'。 

random_state: 用 于 指定 随机 数 生成 器 的 种 子 。 


13.2.6 SVM 的 回归 预测 


回 





SVM 模型 不 仅 可 以 解决 分 类 问题 ， 还 可 以 用 来 解决 连续 数据 的 预测 问题 。 相 比 于 传统 的 线性 


归 ， 它 具有 几 项 优点 ， 例 如 模型 对 数据 的 分 布 没有 任何 约束 、 模 型 不 受 多 重 共 线性 的 影响 、 模 型 


受 异 常 点 的 影响 力度 远 小 于 线性 回归 。 所 以 它 的 这 些 优 点 更 值得 我 们 去 学 习 和 使 用 , 接 下 来 将 介绍 
有 关 SVM 回归 模型 的 理论 知识 。 

在 第 6 章 中 的 线性 回归 模型 中 ， 定 义 模型 的 损失 函数 实际 上 是 对 比 预测 值 与 实际 值 之 间 的 差 
异 ， 当 两 者 相等 时 ， 损 失 为 0， 当 两 者 不 相等 时 ， 才 开始 计算 损失 。 在 SVM 回归 模型 中 ， 对 损失 
函数 的 定义 基本 相同 ， 所 不 同 的 是 该 算法 允许 预测 值 与 实际 值 之 间 存 在 一 个 合理 的 误差 ， 即 
| 六 -Fox 入 s 时 ， 损 失 为 0， 否则 开始 计算 模型 的 损失 。 

类 似 于 近似 线性 可 分 SVM, 为 了 使 SVM 回归 模型 具有 更 强 的 泛 化 能 力 ,需要 加 入 松弛 因子 5@)， 
确保 不 等 式 |yi 一 了 (Xxi)| -上 9 入 ze 成 立 。 注 意 ， 这 里 与 SVM 分 类 模型 不 同 ， 它 是 在 lyi 一 f(xi)| 的 基 
础 上 减 去 5E@9， 相 当 于 将 “分 割 带 ” 之 外 的 样本 点 拉 回 到 带 内 。 所 以 ， 根 据 上 面 的 背景 知识 ， 可 以 
构造 一 个 SVM 回归 模型 的 目标 函数 : 














1 忆 
minwossiz lw + CY (t+ 
i=1 


St. yi—fx)<et 
Fa) — yi<e+& 
0, 60 


其 中 , f(x) = w'xi 十 b, 将 |yi 一 f(xi)| 一 5 中 夺 a 写成 了 目标 函数 中 的 两 个 不 等 式 约束 ; 坷 和 到 表 
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示 将 “分 割 带 ” 以 外 的 样本 点 xi 拉 回 到 两 条 带 内 记 需 要 的 成 本 。 根 据 拉 格 朗 日 函数 的 对 偶 性 ， 可 以 
将 上 面 的 目标 函数 转换 为 下 方 的 形式 : 





n 
= zlwll 十 CD 人 十 &) = maxaga, pp Minw pt (L(w, b,&, ,a, 0a, A)) 


t=1 


= maxaa arminw ssa Glwl + oY + + a- fC) -eb 


tive -ne - -六 uti— 2 


有 了 拉 格 朗 日 对 偶 形 式 的 目标 函数 ， 下 一 步 就 是 求解 极 小 值 问题 ， 关 于 极 小 值 的 计算 与 前 文 
介绍 的 方法 一 样 ， 就 是 对 拉 格 朗 日 函数 计算 偏 导 数 ， 并 令 导 函数 为 0: 
aL(w, b, tba a, wh 二 
nn ee )xi=0 
Senha esp) pA) _ ead 0 


aL(w, b, été 0a, wh 二 | 


i=1 


5 =C-a—uw=0 
Ow bébé pe) _ pe 
06 


再 将 如 上 偏 导数 为 0 的 结果 带 入 到 拉 格 朗 日 函数 L(w, b, ,二 ,qa*,pp*) 中 ， 进 一 步 得 到 目标 
函数 的 极 大 值 问 题 (或 者 通过 乘 以 -1 转换 为 极 小 值 问题 ) : 


ming,a* brik —a) -eait+a)]— 7》 > or 一 aD(o — wx 


i=1 i=1 i=1 


0 =0 


0<ai,ai<C 


继续 对 如 上 的 极 小 值 问题 求 偏 导 ， 最 终 可 以 得 到 函数 Ga) = wxi + b 中 的 参数 w 与 5 的 值 ， 即 
= (ad 
i=1 


n 
b=y;+e— > aa ry 
i=1 





同 理 , 可 以 将 如 上 的 线性 SVM 回归 扩展 到 非 线 性 的 SVM 回归 ,只 需要 使 用 核 函 数 K( xz x ) 技 
术 替 换 更 高 维 空间 的 内 积 ， 即 函数 (xi) 可 以 表示 为 : 


HoD = (aa) KC + +e— (aK(x, ') 
i=1 i=1 


不 论 是 线性 SVM 回归 还 是 非 线性 SVM 回归 , 都 可 以 借助 于 Python 的 skleam 模块 完成 落地 ， 
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读者 只 需 调用 svm 子 模 块 中 的 LinearSVR 以 及 SVR 类 就 可 以 轻松 实现 算法 的 运算 。 有 关 该 “类 ” 
的 语法 和 参数 含义 如 下 : 


svm.LinearSVR (epsilon=0.0, tol=0.0001, C=1.0, loss='epsilon insensitive', 


fit intercept=True, intercept scaling=1.0, dual=True, 
Verbose=0, random state=None, max iter=1000) 


svm.SVR (kernel='rbf', degree=3, gamma='auto', coef0=0.0, tol=0.001, C=1.0, 


epsilon=0.1, shrinking=True, cache size=200, verbose=False, max iter=-1) 


@ epsilon: 用 于 指定 损失 函数 中 的 T 值 , 在 线性 SVR 中 默认 为 0, 在 非 线 性 SVR 中 默认 为 0.1。 
日 tol: 用 于 指定 SVM 模型 迭代 的 收敛 条 件 ， 在 线性 SVR 中 默认 为 0.0001， 在 非 线 性 SVR 中 


默认 为 0.001。 

C: 用 于 指定 目标 函数 中 松弛 因子 的 惩罚 系数 值 ， 默 认为 1。 

loss: 用 于 指定 线性 SVR 的 损失 函数 , 如果 为 'epsilon_insensitive', 则 表示 使 用 |y; 一 f(xi)| 一 EY <e 
的 损失 判断 ; 如 果 为 'squared_epsilon_insensitive' 则 表示 使 用 (y 一 f(xi)) 一 82 < 的 损失 判断 。 
fit_intercept: bool 类 型 参数 ， 是 否 拟 合 线性 SVR 的 截 距 项 ， 默 认为 True。 


e@ intercept_scaling: 当 参 数 fit_intercept 为 True 时 ， 该 参数 有 效 ， 通 过 给 参数 传递 一 个 浮 点 值 ， 


就 相当 于 在 自 变 量 X 矩阵 中 添加 一 常数 列 ， 默 认 该 参数 值 为 1。 
dual: bool 类 型 参数 ， 是 否 对 目标 函数 做 对 偶 性 转换 ， 默 认为 True， 即 建 模 时 需要 利用 拉 格 
朗 日 函数 的 对 偶 性 ; 但 样本 量 超过 变量 个 数 时 ， 该 参数 优先 选择 False。 


@ verbose: bool 类 型 参数 ， 是 否 输出 模型 迭代 过 程 的 信息 ， 默 认为 0， 表 示 不 输出 。 
ee random _state: 用 于 指定 随机 数 生成 器 的 种 子 。 
® ”max_iter: 指定 模型 求解 过 程 中 的 最 大 迭代 次 数 ， 在 线性 SVR 中 默认 为 1000， 在 非 线 性 SVR 


中 默认 为 -1。 

kernel: 用 于 指定 常用 的 核 函 数 ， 如 径 向 基 核 函数 、 多 项 式 核 函数 、Sigmoid 核 函 数 和 线性 核 
函数 。 

degree: 用 于 指定 多 项 式 核 函 数 中 的 p 参数 值 。 

gamma: 用 于 指定 多 项 式 核 函 数 或 径 向 基 核 函数 或 Sigmoid 核 函 数 中 的 Y 参 数值。 

coef0: 用 于 指定 多 项 式 核 函数 或 Sigmoid 核 函 数 中 的 了 参数 值 。 

shrinking: bool 类 型 参数 ， 是 否 采 用 启发 式 收缩 方式 ， 默 认为 True。 

cache_size: 用 于 指定 核 函 数 运算 的 内 存 空 间 ， 默 认为 200M。 


前 文 使 用 了 大 量 的 篇 幅 介 绍 有 关 线 性 可 分 SVM、 近 似 线性 可 分 SVM、 非 线性 可 分 SVM、 线 
性 SVM 回归 以 及 非 线性 SVM 回归 的 理论 知识 ， 只 有 读者 掌握 了 这 些 数学 方面 的 功底 ， 才 能 够 理 
解 sklearn 中 各 种 SVM 类 的 参数 含义 。 接 下 来 将 通过 两 个 数据 案例 介绍 有 关 SVM 模型 的 应 用 实战 。 


13.3 “分 类 问题 的 解决 


本 节 记 使 用 的 数据 集 是 关于 手 体 字 母 的 识别 ， 当 一 个 用 户 在 设备 中 写 入 某 个 字母 后 ， 该 设备 
就 需要 准确 地 识别 并 返回 写 入 字母 的 实际 值 。 很 显然 ， 这 是 一 个 分 类 问题 ， 即 根据 写 入 字母 的 特征 
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信息 〈 如 字母 的 宽度 、 高 度 、 边 际 等 ) 去 判断 其 属于 哪 一 种 字母 。 该 数据 集 一 共 包含 20 000 个 观 
测 和 17 个 变量 ， 其 中 变量 letter 为 因 变 量 ， 具 体 的 值 就 是 20 个 英文 字母 。 接 下 来 利用 SVM 模型 
对 该 数据 集 的 因 变 量 做 分 类 判断 。 


首先 使 用 线性 可 分 SVM 对 手 体 字母 数据 集 建 模 ， 由 于 该 模型 会 受到 惩罚 系数 C 的 影响 ， 故 应 


用 交叉 验证 的 方法 ， 从 给 定 的 几 种 C 值 中 筛选 出 一 个 相对 合理 的 ， 代 码 如 下 : 


# 导入 第 三 方 模块 

from sklearn import svm 

import pandas as pd 

from sklearn import model selection 
from sklearn import metrics 


# 读 取 外 部 数据 

letters = pd.read csv(r'C:\Users\Administrator\Desktop\letterdata.csv') 
# 数据 前 5 行 ， 见 表 13-1 

letters.head() 


表 13-1 数据 的 前 5 行 预览 
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th ll | lo ls [ls | la is 9 |2 ls 4 lio 
2lo [a [1 le Is le lio le [2 le li ls 7 ls 小 3 |s 
3IN |7 11 |e 6 3 5 |9 |4 6 4 4 10 ls | 2 8 
4|G |2 1 3 1 1 8 |6 le 6 6 5 9 | [7 5 10 





















































表 13-1 反映 了 手 体 字母 数据 集 的 前 5 行 观测 ， 都 是 关于 手写 体 的 长 、 宽 及 坐标 信息 特征 。 通 


常 在 建 模 前 都 需要 将 原始 数据 集 拆 分 为 两 个 部 分 ， 分 别 用 于 模型 的 构建 和 测试 ， 具 体 代码 如 下 : 


# 将 数据 拆 分 为 训练 集 和 测试 集 
Predictors = letters.columns[1:] 
XxX train,X test,y train,y test = model selection.train test split(letters[predictors], 
letters.letter, 
test_size = 0.25, 
random state = 1234) 
# 使 用 网 格 搜索 法 ， 选 择 线性 可 分 SVM“ 类 ”中 的 最 佳 c 值 
C=[0.05,0.1,0.5,1,2,5] 
parameters = {'C':C} 
grid linear svc = model selection.GridSearchCV(estimator = svm.LinearSVC(), 
Param grid =parameters, 
scoring='accuracy', cv=5, verbose =1) 
# 模型 在 训练 数据 集 上 的 拟 合 
grid linear sve.fit(X train,y train) 
# 返回 交叉 验证 后 的 最 佳 参数 值 


grid linear svec.best params , grid linear _svc.best_score 


out: 
({'C': 0.1}, 0.69153333333333333) 


# 模型 在 测试 集 上 的 预测 
pred linear svc = grid linear sve.predict (x test) 


# 模型 的 预测 准确 率 
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metrics -accuracy _score(y_test，Ppred linear svc) 


out: 
0.71479999999999999 


如 上 结果 所 示 ， 经 过 5 重 交 叉 验证 后 ， 发 现 最 佳 的 惩罚 系数 C 为 0.1， 模 型 在 训练 数据 集 上 的 平均 
准确 率 只 有 69.2%， 同 时 ， 其 在 测试 数据 集 的 预测 准确 率 也 不 足 72%， 说 明 线性 可 分 SVM 模型 并 不 太 
适合 该 数据 集 的 拟 合 和 预测 。 接 下 来 ， 使 用 非 线 性 SVM 模型 对 该 数据 集 进行 重新 建 模 ， 代 码 如 下 : 

# 使 用 网 格 搜索 法 ， 选 择 非 线性 可 分 SVM“ 类 ”中 的 最 佳 c 值 和 核 函 数 

kernel=['rbf','linear','poly', 'sigmoid'] 

C=[0.1,0.5,1,2,5] 

parameters = {'kernel':kernel,'C':C} 

grid svc = model selection.GridSearchCV (estimator = svm.SVC(), 

Param grid =parameters, 
scoring='accuracy',cv=5,verbose =1) 

# 模型 在 训练 数据 集 上 的 拟 合 

grid svc.fit(X train,y train) 

# 返回 交叉 验证 后 的 最 佳 参 数值 


grid svc.best params , grid svc.best score_ 


out: 
({'C': 5, 'kernel': 'rbf'}, 0.97340000000000004) 


# 模型 在 测试 集 上 的 预测 
Pred svc = grid svc.predict (X test) 
# 模型 的 预测 准确 率 


metrics.accuracy scorel(ly test,pred svc) 


out: 
0.9788 


如 上 结果 所 示 ， 经 过 5 重 交 叉 验 证 后 ， 发 现 最 佳 的 惩罚 系数 C 为 5， 最 佳 的 核 函 数 为 径 向 基 核 
函数 。 相 比 于 线性 可 分 SVM 模型 来 说 ， 基 于 核 技术 的 SVM 表现 了 极 佳 的 效果 ， 模 型 在 训练 数据 
集 上 的 平均 准确 率 高 达 97.34%， 而 且 其 在 测试 数据 集 的 预测 准确 率 也 接近 98%， 说 明 利 用 非 线 性 
可 分 SVM 模型 拟 合 及 预测 手 体 字母 数据 集 是 非常 理想 的 。 


13.4 预测 问题 的 解决 


本 节 实 战 部 分 所 使 用 的 数据 集 来 源 于 UCI 网 站 ， 是 一 个 关于 森林 火灾 方面 的 预测 ， 该 数据 集 
一 共 包 含 517 条 火灾 记录 和 13 个 变量 ， 其 中 变量 area 为 因 变 量 ， 表 示 火 灾 产 生 的 森林 毁坏 面积 ， 
其 余 变 量 主要 包含 火灾 发 生 的 坐标 位 置 、 时 间 、 各 项 火险 天 气 指标 、 气 温 、 湿 度 、 风 力 等 信息 。 接 
下 来 利用 SVM 模型 对 该 数据 集 的 因 变 量 做 预测 分 析 : 

# 读 取 外 部 数据 

forestfires = pd.read csv(r'C:\Users\Administrator\Desktop\forestfires.csv') 


# 数据 前 5 行 ， 见 表 13-2。 


forestfires.head () 
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是 一 个 数值 型 变量 ,通常 都 需要 对 连续 型 的 因 变量 做 分 布 的 探索 性 分 析 , 如 果 数据 呈现 严 


表 13-2 数据 的 前 5 行 预览 





|xjY|mentn|day|FFwc|opwc 





ol7|s|mar |m |s62 |262 





00 |oo 








1|7|4|oct |ue |so6 |s54 





2|1714 |oct sat |90.6 |43.7 


lolol fe for los ms onles fr olos 


51.3 |102.2|9.6|11.4 |99 


















如 表 13-2 所 示 ， 火 灾 发 生 的 时 间 (month 和 day) 为 字符 型 的 变量 ， 如 果 将 这 样 的 变量 带 入 模 
型 中 ,就 必须 对 其 做 数值 化 转换 .考虑 到 月 份 可 能 是 火灾 发 生 的 一 个 因素 , 故 将 该 变量 做 保留 处 理 ， 
而 将 day 变量 删除 。 数 据 清洗 如 下 : 


# 删除 day 变量 

forestfires.drop('day',axis = 1, inplace = True) 

# 将 月 份 做 数值 化 处 理 

forestfires.month = pd.factorize(forestfires.month) [0] 


# 预览 数据 前 5 行 ， 见 表 13-3 
forestfires.head () 


表 13-3 ”离散 变量 的 数值 化 处 理 结果 





| [x |Y [month FFMC pmc |De his [temp [RH wind| rain |area 








4|81510 89.3 |51.3 |102.2|9.6|11.4 |99 |1.8 |0.0 |0.0 








如 表 13-3 所 示 , day 变量 已 被 删除 ,而且 month 变量 也 成 为 数值 型 变量 。 表 中 的 应 变量 为 area， 








E 的 偏 态 ， 


而 不 做 任何 的 修正 时 ， 直 接 带 入 到 模型 将 会 产生 很 差 的 效果 。 不 妨 这 里 使 用 直方 图 直观 感受 area 


变量 


的 分 布 形 态 ， 操 作 代码 如 下 : 
# 导入 第 三 方 模块 


import seaborn as sns 
import matplotlib.pyplot as plt 
from scipy.stats import norm 


# 绘制 森林 烧毁 面积 的 直方 图 

sns.distplot (forestfires.area, bins = 50, kde = True, fit = norm, 
hist_ kws = {'color':'steelblue'}, 
kde_kws red', 'label':'Kernel Density'}, 
fit_kws 





fcolor'" 


# 显示 图 例 


{'color':'black','label':'Nomal', "linestyle’':'--'}) 
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见 图 13-11。 








0 200 400 600 800 1000 1200 
图 13-11 受灾 面积 的 直方 图 


如 图 13-11 所 示 ， 从 分 布 来 看 ,数据 呈现 严重 的 右 偏 。 建 模 时 不 能 够 直接 使 用 该 变量 ,一般 都 
会 将 数据 做 对 数 处 理 ， 代 码 如 下 : 





接 下 来 基于 上 面 清洗 后 的 数据 将 其 拆 分 为 两 部 分 ， 分 别 用 于 模型 的 构建 和 测试 。 需 要 注意 的 
是 ， 在 建 模 时 必须 对 参数 C、s 和 | y 做 调 优 处 理 ， 因 为 默认 的 SVM 模型 参数 并 不 一 定 是 最 好 的 。 代 
码 如 下 : 
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1.9258635953335212 


# 使 用 网 格 搜索 法 ， 选 择 SVM 回归 中 的 最 佳 c 值 、epsilon 值 和 gamma 值 

epsilon = np.arange (0.1,1.5,0.2) 

C= np.arange(100,1000,200) 

gamma = np.arange(0.001,0.01,0.002) 

Parameters = {'epsilon':epsilon,'C':C,'gamma' :gamma} 

grid svr = model selection.GridSearchCV (estimator = svm.SVR(),param grid =parameters, 
scoring='neg mean_ squared error', 
cv=5,verbose =1, n jobs=2) 

# 模型 在 训练 数据 集 上 的 拟 合 

grid svr.fit(X train,y train) 

# 返回 交叉 验证 后 的 最 佳 参 数值 


print (grid svr.best params , grid svr.best score ) 


out: 
{'C': 300, 'gamma': 0.001, 'epsilon': 1.1000000000000003} -1.99405794977 


# 模型 在 测试 集 上 的 预测 
Pred grid svr = grid svr.predict(X test) 
# 计算 模型 在 测试 集 上 的 MSE 值 


metrics.mean squared error(y test, pred grid svr) 


out: 
1.7455012238826526 


如 上 结果 所 示 ， 经 过 5 重 交叉 验证 后 ， 非 线性 SVM 回归 的 最 佳 惩罚 系数 C 为 300、 最 佳 的 
值 为 1.1、 最 佳 的 Y 值 为 0.001， 而 且 模型 在 训练 数据 集 上 的 负 MSE 值 为 -1.994。 为 了 实现 模型 之 
间 拟 合 效果 的 对 比 ， 构 建 了 一 个 不 做 任何 参数 调整 的 SVM 回归 模型 ， 并 计算 得 到 该 模型 在 测试 数 
据 集 上 的 MSE 值 为 1.926, 相 比 于 经 过 调 参 之 后 的 模型 来 说 , 这 个 值 要 高 于 1.746。 进 而 可 以 说 明 ， 
在 利用 SVM 模型 解决 分 类 或 预测 问题 时 ， 需 要 对 模型 的 参数 做 必要 的 优化 。 





13.5 ”本 便 小 结 





本 章 介 绍 了 4 类 常见 的 SVM 模型 ， 分 别 是 线性 可 分 SVM、 非 线性 可 分 SVM、 线 性 SVM 加 
归 以 及 非 线性 SVM 回归 ， 内 容 中 包含 SVM 模型 的 理论 思想 、 目 标 函 数 的 构建 、 最 优 值 求 解 的 推 
导 过 程 以 及 相应 的 应 用 实战 .通常 在 实际 应 用 中 所 面临 的 绝 大 多 数 都 为 非 线性 数据 ,所 以 相对 而 言 ， 
基于 核 技 术 的 非 线 性 SVM 模型 将 会 应 用 得 更 为 广泛 。 不 管 是 哪 种 类 型 的 SVM 模型 ， 在 建 模 时 都 
需要 进行 参数 优化 ， 因 为 不 同 的 参数 值 (如 惩罚 系数 C、 核 函数 、Y 值 、s 值 等 ) 对 模型 的 结果 都 
有 比较 大 的 影响 。 根 据 经验 ， 核 函数 选择 为 高 斯 核 函 数 时 模型 拟 合 效果 往往 会 更 好 ; 惩罚 系数 C 可 
以 选择 在 0.0001~10000， 值 越 大 ， 惩 罚 力度 越 大 ， 模 型 越 有 可 能 产生 过 拟 合 ， 高 斯 核 函数 中 的 Y 
参数 越 大 ， 对 应 的 支持 向 量 则 越 少 ， 反 之 支持 向 量 越 多 、 模 型 越 复 杂 、 越 可 能 导致 模型 的 过 拟 合 。 
相对 于 前 面 几 个 章节 所 介绍 的 分 类 或 预测 模型 来 说 ，SVM 模型 的 表现 通常 是 非常 优异 的 ， 但 
最 大 的 缺点 是 运算 成 本 非常 高 ， 尤 其 是 当 数 据 规 模 很 大 时 ， 明 显 感觉 速度 跟 不 上 。 所 以 ， 在 实际 
应 用 中 ， 需 要 将 时 间 成 本 和 准确 率 做 一 个 平衡 ， 从 中 选择 合理 的 模型 解决 工作 中 的 需求 。 
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为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 。 























Python 模块 ”| Python 函数 或 方法 函数 说 明 
train_test_split 将 数据 拆 分 为 训练 集 和 测试 集 的 函数 
GridSearchCV 实现 网 格 搜索 法 的 “类 ” 
fit 基于 “类 ”的 拟 合 “方法 ” 
predict 基于 拟 合 的 预测 “方法 ” 
best params 返回 网 格 搜索 法 的 最 佳 参 数 
best score_ 返回 网 格 搜索 法 的 最 佳 平均 得 分 


accuracy Score 计算 模型 预测 准确 率 的 函数 
LinearSVC 构建 线性 可 分 SVM 的 “类 ” 

SVC 构建 非 线性 可 分 SVM 的 “类 ” 
LinearSVR 构建 线性 SVM 回归 的 “类 ” 
构建 非 线性 SVM 回归 的 “类 ” 

将 数据 做 标准 化 处 理 的 函数 
pandas drop 删除 数据 框 中 行 记录 或 字段 的 函数 
factorize 将 字符 型 变量 做 数值 转换 的 函数 


绘制 直方 图 的 函数 




















GBDT 模型 的 应 用 


GBDT (Gradient Boosting Decision Tree， 梯 度 提 升 树 ) 属于 一 种 有 监督 的 集成 学 习 算 法 ， 与 
前 面 几 童 介绍 的 监督 算法 类 似 , 同样 可 用 于 分 类 问题 的 识别 和 预测 问题 的 解决 。 该 集成 算法 体现 了 
三 方面 的 优势 ， 分 别 是 提升 Boosting、 梯 度 Gradient 和 决策 树 Decision Tree。“ 提 升 ” 是 指 将 多 个 
弱 分 类 器 通过 线 下 组 合 实现 强 分 类 器 的 过 程 ; “梯度 ”是 指 算法 在 Boosting 过 程 中 求解 损失 函数 
时 增强 了 灵活 性 和 便捷 性 ，“ 决 策 树 ” 是 指 算法 所 使 用 的 弱 分 类 器 为 CART 决策 树 ， 该 决策 树 具 
有 简单 直观 、 通 俗 易 懂 的 特性 。 

第 10 章 曾 介绍 过 单 棵 决策 树 和 随机 森林 相关 的 知识 点 以 及 两 者 的 差异 ,在 可 信 度 和 稳定 性 上 ， 
通常 随机 森林 要 比 单 棵 决策 树 更 强 。 随 机 森林 实质 上 是 利用 Bootstrap 抽样 技术 生成 多 个 数据 集 ， 
然后 通过 这 些 数据 集 构造 多 棵 决策 树 , 进而 运用 投票 或 平均 的 思想 实现 分 类 和 预测 问题 的 解决 。 但 
是 这 样 的 随机 性 会 导致 树 与 树 之 间 并 没有 太 多 的 相关 性 , 往往 会 导致 随机 森林 算法 在 拟 合 效果 上 过 
到 瓶颈 ， 为 了 解决 这 个 问题 ，Friedman 等 人 提出 了 “提升 ”的 概念 ， 即 通过 改变 样本 点 的 权 值 和 
各 个 弱 分 类 器 的 权重 ， 并 将 这 些 弱 分 类 器 完成 组 合 ， 实 现 预 测 准确 性 的 突破 。 更 进一步 ， 为 了 使 提 
升 算法 在 求解 损失 函数 时 更 加 容易 和 方便 ，Friedman 又 提出 了 梯度 提升 算法 ， 即 GBDT。 

GBDT 模型 对 数据 类 型 不 做 任何 限制 ， 既 可 以 是 连续 的 数值 型 ， 也 可 以 是 离散 的 字符 型 (但 
在 Python 的 落地 过 程 中 ,需要 将 字符 型 变量 做 数值 化 处 理 或 哑 变 量 处 理 )。 相 对 于 SVM 模型 来 说 ， 
较 少 参数 的 GBDT 具有 更 高 的 准确 率 和 更 少 的 运算 时 间 ，GBDT 模型 在 面 对 异 常数 据 时 具有 更 强 
的 稳定 性 。 由 于 上 面 的 种 种 优点 ， 使 得 越 来 越 多 的 企业 或 用 户 在 数据 挖掘 或 机 器 学 习 过 程 中 选择 使 
用 ， 同 时 该 算法 也 是 经 常 出 没 于 各 种 大 数据 竞赛 中 ， 并 且 获 得 较 好 的 成 绩 。 

接 下 来 ， 本 章 将 详细 介绍 有 关 GBDT 模型 的 相关 知识 点 ， 希 望 读 者 在 学 完 本 章 内 容 后， 可 以 
掌握 如 下 几 方 面 的 要 点 : 
提升 树 之 Adaboost 算法 的 理论 知识 ; 
梯度 提升 树 之 DBDT 算法 的 理论 知识 ; 

非 平衡 数据 的 处 理 ; 
DBDT 算法 的 改进 之 XGBoost 理论 知识 ; 
各 集成 算法 的 应 用 实战 。 
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14.1 提升 树 算法 


本 书 的 第 7 章 介 绍 了 有 关 多 元 线性 回归 模型 的 相关 知识 点 ， 该 模型 的 构造 实质 上 是 将 输入 特 
征 X 进 行 加 权 运 算 ， 即 y = po + Bixi 十 … 十 Bxp = PBo + ?Pixi。 本 节 所 介绍 的 提升 树 算法 与 线 
性 回归 模型 的 思想 类 似 , 所 不 同 的 是 该 算法 实现 了 多 棵 基础 决策 树 f(x) 的 加 权 运 算 , 最 具 代 表 的 提 
升 树 为 AdaBoost 算法 ， 即 : 





M 
FO) = Yanfnl) = 页 -十 mm 所 的 
m=1 


其 中 ，F(x) 是 由 M 棵 基础 决策 树 构成 的 最 终 提升 树 ，F,_1(X) 表 示 经 过 m 一 1 轮 迭 代 后 的 提升 
树 ，am 为 第 m 棵 基础 决策 树 所 对 应 的 权重 ， 岳 (x) 为 第 m 棵 基础 决策 树 。 除 此 之 外 ， 每 一 棵 基础 决 
策 树 的 生成 并 不 像 随机 森林 那样 , 而 是 基于 前 一 棵 基础 决策 树 的 分 类 结果 对 样本 点 设置 不 同 的 权重 ， 
如 果 在 前 一 棵 基础 决策 树 中 将 某 样本 点 预测 错误 , 就 会 增 大 该 样本 点 的 权重 , 否则 会 相应 降低 样本 
点 的 权重 ， 进 而 再 构建 下 一 棵 基础 决策 树 ， 更 加 关注 权重 大 的 样本 点 。 

按照 这 个 思想 ，AdaBoost 算法 需要 解决 三 大 难题 ， 即 样本 点 的 权重 wwi 如 何 确定 、 基 础 决策 
树 F(x) 如 何 选择 以 及 每 一 棵 基础 决策 树 所 对 应 的 权重 wm 如 何 计算 。 为 了 解决 这 三 个 问题 ， 还 需要 
从 提升 树 AdaBoost 算法 的 损失 函数 着 手 。 


14.1.1 AdaBoost 算法 的 损失 函数 


对 于 分 类 问题 而 言 ， 通 常 提升 树 的 损失 函数 会 选择 使 用 指数 损失 函数 ， 对 于 预测 性 问题 ， 通 
常会 选择 平方 损失 函数 。 这 里 不 妨 以 二 分 类 问题 为 例 〈 正 负 例 分 别 用 +1 和 -1 表示 ) ， 详 细 解 说 关 
于 提升 树 损失 函数 的 推导 和 延伸 。 

LPGCD) = exp(—yF x)) 


m=1 


=exp (~y(Fm-1() 十 amfn(’))) 


如 上 损失 函数 所 示 ， 未 知 信息 为 系数 gam 和 基础 树 记 (x)， 即 假设 已 经 得 知 m 一 1 轮 从 代 后 的 提 
升 树 Fi-1(x) 之 后 ， 如 何 基 于 该 提升 树 进一步 求解 第 m 棵 基础 决策 树 和 相应 的 系数 。 如 果 提 升 树 
Fm-1(X) 还 能 够 继续 提升 ， 就 说 明 损 失 函 数 还 能 够 继续 降低 ， 换 句 话 说 ， 如 果 将 所 有 训练 样本 点 带 
入 损失 函数 中 ， 一 定 存在 一 个 最 佳 的 a 和 所 (x)， 使 得 损失 函数 尽量 最 大 化 地 降低 ， 即 : 


N 
(@m fa 0)) = argmincrea 2 exp (yi(Fn (x) + amfin GD))) 
1 


上 面 的 式 子 还 可 以 改写 为 : 
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N 
(am fin(X)) = argmina, ew >》 pmaemp (~yiamfin(xi)) 
其 中 ，pmi = exp[ 一 yiFm_1(Xi)]， 由 于 pmi 与 损失 函数 中 的 qm 和 友 (x) 无 关 ， 因 此 在 求解 最 小 化 
的 问题 时 只 需 重点 关注 2 站: exp (一 yiamfin(Xi)) 部 分 。 
对 于 人 1 exp (一 yiamfin(Xi)) 而 言 ， 当 第 m 棵 基础 决策 树 能 够 准确 预测 时 ,yi 与 所 (Xi) 的 乘积 为 
1， 和 否则 为 -1， 于 是 exp (一 yiamfin (Xi) ) 的 结果 为 exp (一 am) 或 exp (am)， 对 于 某 个 固定 的 a 而 言 ， 
损失 函数 中 的 和 式 仅仅 是 关于 ww 的 式 子 。 所 以 ， 要 想 求 得 损失 函数 的 最 小 值 ， 首 先 得 找到 最 佳 的 
fin(x)， 使 得 所 有 训练 样本 点 xi 带 入 后 (x) 后 ， 误 判 结果 越 少 越 好 ， 即 最 佳 的 遍 (Xx) 可 以 表示 为 : 





N 
fa) = argminr > pmil(yi # fn0)) 
i=1 


其 中 ，f 表 示 所 有 可 用 的 基础 决策 树 空间 ， 岳 (x)* 就 是 从 f 空 间 中 寻找 到 的 第 m 轮 基础 决策 树 ， 
它 能 够 使 加 权 训 练 样本 点 的 分 类 错误 率 最 小 , !(y = (x)) 表 示 当 第 m 棵 基础 决策 树 预测 结果 与 实 
际 值 不 相等 时 返回 1。 下 一 步 需 要 求解 损失 函数 中 的 参数 ww， 为 了 求解 的 方便 ， 首 先 将 损失 函数 
改写 为 下 面 的 式 子 : 





L(y, F(x)) = exp (~y(Fm-1(x) + am 灰 CD)) 
N 


= pa pmi exp(—yiamfin(xi)) 


i=1 


= > pmiexp(—am) + > pmiexp(am) 


JE 名 (xD 站 #fm(xi) 


= (exp(am) — exp(—am)) > pmil(yi # fn(x)) 
i=1 


N 
+exp(—am) > pmi 
i=1 


其 中 ， 作 1 pmi 可 以 被 拆 分 为 两 部 分 ， 一 部 分 是 预测 正确 的 样本 点 ， 男 一 部 分 是 预测 错误 的 样 
本 点 ， 即 : 


N N N 
Dpm = > pmadOn 关押 (xz)) + > pmil(yi = fn(x)) 
i=1 i=1 


i=1 
和 > Pmi 十 pa Pmi 
yiz#fm(xi) yi=fm(xi) 
然后 基于 上 文中 改写 后 的 损失 函数 求解 最 佳 的 参数 ww， 能 够 使 得 损失 函数 取得 最 小 值 。 对 损 
失 函 数 中 的 wm 求 导 ， 并 令 导 函 数 为 0: 














oF) ， _ i 
Re + ame ) 2 rm # fn(x)) — ame 之 mm 
最 终 令 ,FOO) _ 0 
Oam 
a 
* am" = F109 
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如 上 gw* 妈 为 基础 决策 树 的 权重 ， 其 中 ，en = BE CezAnG) -3 人 wmul(n 二 所 CD)， 表 示 
基础 决策 树 m 的 错误 率 。 

在 求 得 第 柬 轮 基础 决策 树 氮 Co) 以 及 对 应 的 权重 ww 后 ， 便 可 得 到 经 mm 次 迭代 后 的 提升 树 
Fn(X) = Fm-1(X) + am 所 (xi ， 再 根据 pmi = exp[ 一 yiFm-1(Xi)]， 进 而 可 以 计算 第 m + 1 轮 基础 决 
策 树 中 样本 点 的 权重 wmwi: 

Wm+1i = Wmiexp[ 一 Xiam* 万 (xi 站] 
为 了 使 样本 权重 单位 化 ， 需 要 将 每 一 个 wy1i 与 所 有 样本 点 的 权重 和 做 商 处 理 ， 即 : 
Wmiexp( 一 yiam fn(xi)’) 
他: Wmiexp(—yiam’fm(Xi)*) 

实际 上 ，Z 人 1wmiexp( 一 yiam*fm(Xxi)”) 就 是 第 m 轮 基础 决策 树 的 总 损失 值 ， 然 后 将 每 一 个 样本 

点 对 应 的 损失 与 总 损失 的 比值 用 作 样 本 点 的 权重 。 





Wm+1i” 2 


14.1.2 AdaBoost 算法 的 操作 步骤 


AdaBoost 算法 在 解决 分 类 问题 时 ， 它 的 核心 就 是 不 停 地 改变 样本 点 的 权重 ， 并 将 每 一 轮 的 基 
础 决策 树 通过 权重 的 方式 进行 线性 组 合 。 该 算法 在 迭代 过 程 中 需要 进行 如 下 四 个 步 又 : 

(1) 在 第 一 轮 基础 决策 树 户 (xz) 的 构建 中 ， 会 设置 每 一 个 样本 点 的 权重 wii 均 为 /Ny。 

(2) 计算 基础 决策 树 f(x) 在 训练 数据 集 上 的 误 判 率 en = > 人 wmi*1 (yi zz fin (Xi))。 

(3) 计算 基础 决策 树 押 CO 所 对 应 的 权重 am* = :log 2 

(4) 根 据 基础 决策 树 友 (zx) 的 预测 结果 , 计算 下 一 轮 用 于 构建 基础 决策 树 的 样本 点 权重 wn+ai”， 
权重 可 以 写成 





三 





wmiexp( 一 am ) 
D1 wmiexp( 一 am*) 
Wmiexp(am’) 
Pi wmiexp (om’)’ 
在 如 上 的 几 个 步骤 中 ， 需 要 说 明 三 点 ， 第 一 是 关于 基础 决策 树 误 判 率 em 与 样本 点 权重 之 间 的 
关系 ， 通 过 公式 可 知 ， 实 际 上 误 判 率 en 就 是 错 分 样本 点 权重 之 和 ; 第 二 是 关于 权重 ww* 与 基础 决 
策 树 误 判 率 em 之 间 的 关系 , 只 有 当 第 m 轮 决策 树 的 误 判 率 小 于 等 于 0.5 时 , 该 基础 决策 树 才 有 意义 ， 
即 误 判 率 em 越 小 于 0.5， 对 应 的 权重 am* 越 大 ， 进 而 说 明 误 判 率 越 小 的 基础 树 越 重要 ， 第 三 是 关于 
样本 点 权重 的 计算 , 很 显然 , 根据 公式 可 知 ， 在 第 m 轮 决策 树 中 样本 点 预测 错误 时 对 应 的 权重 是 预 
测 正确 样本 点 权重 的 exp(2am”) 倍 ， 进 而 可 以 使 下 一 轮 的 基础 决策 树 更 加 关注 错 分 类 的 样本 点 。 
AdaBoost 算法 也 可 以 处 理 回归 问题 ， 对 于 回归 提升 树 来 说 ， 它 的 核心 就 是 利用 第 m 轮 基础 树 
的 残 差 值 拟 合 第 mm + 1 轮 基 础 树 。 算 法 在 迭代 过 程 中 需要 进行 如 下 四 个 步骤 : 


(1) 初始 化 一 棵 仅 包含 根 节点 的 树 ， 并 寻找 到 一 个 常数 能 够 使 损失 函数 达到 极 小 值 。 

(2) 计算 第 m 轮 基础 树 的 残 差 值 rmi = yi 一 f(xi)。 

(3) 将 残 差 值 7wi 视 为 因 变 量 ， 再 利用 自 变 量 的 值 对 其 构造 第 m + 1 轮 基 础 树 f+1(x)。 

(4) 重复 步骤 (2) 和 (3) ， 得 到 多 棵 基础 树 ， 最 终 将 这 些 基 础 树 相 加 得 到 回归 提升 树 


有 Ci) = yi 


Wm+Li 二 


fn Xi) # yi 
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F(x) = Bm-1 fn(%). 


14.1.3 AdaBoost 算法 的 简单 例子 


为 了 使 读者 能 够 理解 AdaBoost 算法 在 运算 过 程 中 的 几 个 步骤 ， 这 里 不 妨 以 一 个 分 类 问题 为 例 
(来 源 于 李 航 老师 的 《统计 学 习 方 法 》 ) ， 并 通过 手动 方式 求 得 最 佳 提升 树 。 如 表 14-1 所 示 ， 对 
于 一 个 一 维 的 自 变 量 和 对 应 的 因 变量 数据 来 说 ， 如 何 构造 AdaBoost 强 分 类 器 ， 有 具体 步骤 如 下 : 








表 14-1 手动 计算 的 数据 案例 











步骤 一 ， 构建 基础 后 (Gx) 
初始 情况 下 ， 将 每 个 样本 点 的 权重 wt 设置 为 10， 并 构造 一 个 误 分 类 率 最 低 的 2): 

Ce 人 x<25 

A x>25 

步骤 二 计算 基础 树 有 (x) 的 错误 率 es 

N 

3 
6 = ?i010 # fe)) = 03 


i=1 


步骤 三 : 计算 基础 树 及 (x) 的 权重 oa 
al 三 Slog 
步骤 四 : 更 新 样本 点 的 权重 wi; 
Wi = (0.07143,0.07143,0.07143,0.07143,0.07143, 
0.07143,0.16667,0.16667,0.16667,0.07143) 
所 以 得 到 第 一 轮 加 权 后 的 提升 树 F(x) = 0.4236 上 请 (xz) ， 故 可 以 根据 分 类 器 的 判断 标准 
sign(0.4236fi(x)) 得 到 相应 的 预测 结果 ， 见 表 14-2。 


表 14-2 提升 树 的 第 一 轮 迭 代 结果 


1 一 el 
= 0.4236 
e1 

















1 3 4 5 6 |7 |s 9 
Bh | 洒 | 种 一直 时 :| 二 | 
a | a a .| 二， | 二 

其 中 ， 函 数 sign(z) 表 示 当 z > 0 时 返回 +1， 和 否则 返回 -1。 根 据 表 14-2 中 的 结果 可 知 ， 当 x 取 值 
为 6、7、8 时 ， 对 应 的 预测 结果 是 错误 的 ， 样 本 点 的 权重 相对 也 是 最 大 的 。 所 以 在 进入 第 二 轮 基础 
树 的 构建 时 ， 模 型 会 更 加 关注 这 三 个 样本 点 。 

步骤 一 : 构建 基础 树 户 (0) 

由 于 此 时 样本 点 的 权重 已 经 不 完全 相同 ， 故 该 轮 基础 树 会 更 加 关注 于 第 一 轮 错 分 的 样本 点 ， 
根据 数据 可 知 ， 可 以 构造 一 个 误 分 类 率 最 低 的 f(x): 


1, x<8.5 
有 9 = 入 x>8.5 
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步骤 二 : 计算 基础 树 户 (xz) 的 错误 率 e> 


N 
a pa wail (yi # fa(xi)) = 0.07143 *3 = 0.2143 


i=1 
步骤 三 : 计算 基础 树 户 (x) 的 权重 wz 
= 0.6496 





1 be 
2 =7l0g 壤 


步骤 四 : 更 新 样本 点 的 权重 wzi 
UV = (0.0455,0.0455,0.0455,0.1667,0.1667, 
0.1667,0.1060,0.1060,0.1060,0.0455) 
需要 注意 的 是 ， 这 里 样本 点 权重 的 计算 是 基于 Wi 和 wz 的 结果 得 到 的 ， 所 以 看 见 的 权重 有 三 种 
不 同 的 结果 。 根 据 两 棵 基础 树 ， 可 以 组 合 为 一 个 新 的 提升 树 : F(x) = 0.4236 万 (x) + 0.6496 户 (x)， 
进而 依赖 判断 标准 ， 得 到 相应 的 预测 结果 ， 见 表 14-3 。 


表 14-3 ”提升 树 的 第 二 轮 迭 代 结 果 


lo [! | | | |s jl js， | 
| 入 了 | 


| 预测 得 分 “| 1073 | 1.073 | 1.073 | 0226 | 0226 | 0226 | 0226 | 0226 | 0226 | -1073 | 
ma ||||aa 
如 上 结果 所 示 ， 对 于 两 棵 基础 树 的 F(x) 来 说 ， 当 x 取 值 为 3、4、5 时 ， 提 升 树 的 预测 结果 是 错 
误 的 。 同 理 ， 经 计算 后 的 样本 权重 Ws 中 也 是 这 三 个 样本 点 对 应 的 值 最 大 。 接 下 来 ， 继 续 进 入 第 三 
轮 基础 树 的 构建 ， 此 时 模型 会 根据 样本 点 权重 的 大 小 给 予 不 同 的 关注 度 。 
步骤 一 : 构建 基础 树 fs(x) 





一 1 FE 
A = 加 x>55 


步骤 二 : 计算 基础 树 户 (zx) 的 错误 率 es 
N 
ea 一 > wiil(yi # fn(xi)) = 0.0455 * 4 = 0.1820 
i=1 
步骤 三 : 计算 基础 树 户 CO) 的 权重 wa 
t= 


二 ea3 
aa 三 2 = 0.7514 


步骤 四 : 更 新 样本 点 的 权重 wai 
Ws = (0.125,0.125,0.125,0.102,0.102, 
0.102,0.065,0.065,0.065,0.125) 
其 中 ,样本 权重 Ws 的 值 依赖 于 Ws 和 as。 进 一 步 得 到 包含 三 棵 基础 树 的 提升 树 , 它们 与 各 种 权 
重 的 线性 组 合 可 以 表示 为 F(x) = 0.4236 万 (xz) + 0.6496 户 (x) + 0.7514fs(x)， 进 而 根据 判断 标准 ， 
得 到 如 下 的 预测 结果 ， 见 表 14-4。 
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表 144 提升 树 的 第 三 轮 迭代 结果 

















9 
| 
| 
表 14-4 的 预测 结果 所 示 ， 经 过 三 轮 之 后 的 提升 过 程 ，AdaBoost 模型 可 以 百分之百 准确 地 预 


测 样本 点 所 属 的 类 别 。 所 以 ， 基 于 该 样本 运用 提升 树 算法 ， 求 得 最 佳 的 提升 树 模 型 为 F(x) = 
0.4236fi(x) + 0.6496f(x) + 0.7514f (x). 


4 AdaBoost 算法 的 应 用 


前 面 通过 简单 的 案例 讲解 了 有 关 AdaBoost 算法 在 求解 分 类 问题 中 所 涉及 的 几 个 步骤 ， 除 此 ， 
该 算法 还 可 以 解决 预测 性 问题 。 在 Python 中 可 以 非常 方便 地 将 其 实现 落地 ， 读 者 只 需 导入 sklearn 
的 子 模块 ensemble ， 并 从 中 调 入 AdaBoostClassifier 类 或 AdaBoostRegressor 类 ， 其 中 
AdaBoostClassifier 用 于 解决 分 类 问题 ，AdaBoostRegressor 则 用 于 解决 预测 问题 。 有 关 这 两 个 类 的 
语法 和 参数 含义 如 下 : 


AdaBoostClassifier (base estimator=None, n_estimators=50, 





learning rate=1.0, algorithm='SAMME.R', random state=None) 


AdaBoostRegressor (base estimator=None, n estimators=50, 


learning rate=1.0, loss='linear', random state=None) 


base_estimator: 用 于 指定 提升 算法 所 应 用 的 基础 分 类 器 ， 默 认为 分 类 决策 树 (CART )， 也 可 
以 是 其 他 基础 分 类 器 ， 但 分 类 器 必须 支持 带 样本 权重 的 学 习 ， 如 神经 网 络 。 

n_estimators: 用 于 指定 基础 分 类 器 的 数量 ， 默 认为 50 个 ， 当 模型 在 训练 数据 集中 得 到 完美 
的 拟 合 后 ， 可 以 提前 结束 算法 ， 不 一 定 非 得 构建 完 指定 个 数 的 基础 分 类 器 。 

leaming rate: 用 于 指定 模型 迭代 的 学 习 率 或 步 长 ， 即 对 应 的 提升 模型 F(x) 可 以 表示 为 
F(X) = Fm-1(X) 二 vamfm(%), 其 中 的 v 就 是 该 参数 的 指定 值 ,默认 值 为 1; 对 于 较 小 的 学 习 率 u 而 言 ， 
则 需要 迭代 更 多 次 的 基础 分 类 器 ， 通 常情 况 下 需要 利用 交叉 验证 法 确定 合理 的 基础 分 类 器 个 
数 和 学 习 率 。 

algorithm: 用 于 指定 AdaBoostClassifier 分 类 器 的 算法 ， 默 认为 'SAMME.R'， 也 可 以 使 用 
'SAMME'; 使 用 'SAMME.R' 时 , 基础 模型 必须 能 够 计算 类 别 的 概率 值 ; 一 般 而 言 , 'SAMME.R' 
算法 相 比 于 'SAMME' 算 法 ， 收 化 更 快 、 误 差 更 小 、 和 迭代 数量 更 少 。 

loss: 用 于 指定 AdaBoostRegressor 回归 提升 树 的 损失 函数 ， 可 以 是 'linear， 表 示 使 用 线性 损 
失 函 数 ; 也 可 以 是 'square'， 表 示 使 用 平方 损失 函数 ; 还 可 以 是 'exponential， 表 示 使 用 指数 损 
失 函 数 ; 该 参数 的 默认 值 为 linear 。 

random state: 用 于 指定 随机 数 生成 器 的 种 子 。 


需要 说 明 的 是 ， 不 管 是 提升 分 类 器 还 是 提升 回归 器 ， 如 果 基 础 分 类 器 使 用 默认 的 CART 决策 
树 ， 都 可 以 调整 决策 树 的 最 大 特征 数 、 树 的 深度 、 内 部 节点 的 最 少 样本 量 和 叶子 节点 的 最 少 样 本 量 
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等 ， 对 于 回归 提升 树 AdaBoostRegressor 而 言 ， 在 不 同 的 损失 函数 中 ， 第 k 个 基础 分 类 器 样本 点 损 
失 值 的 计算 也 不 相同 。 
(1) 线性 损失 函数 





lyi — fr(x)| 
Ex 


(2) 平方 损失 函数 
EE Gi 一 所 Co 
届 汉 
(3) 指数 损失 函数 
2 
ex 三 工 一 exp| 一 一 一 一 
k 

其 中 ，E& 表 示 第 k 个 基础 分 类 器 在 训练 样本 点 上 的 最 大 误差 ， 它 的 计算 表达 式 可 以 写成 
Ex = maxlyi — fr(xi)|。 

本 节 中 关于 提升 树 的 应 用 实战 将 以 信用 卡 违约 数据 为 例 ， 该 数据 集 来 源 于 UCI 网 站 ， 一 共 包 
含 30 000 条 记录 和 25 个 变量 ， 其 中 自 变 量 包 含 客户 的 性 别 、 受 教育 水 平 、 年 龄 、 婚 姻 状 况 、 信 用 
额度 、6 个 月 的 历史 还 款 状态 、 账 单 金额 以 及 还 款 金额 ， 因 变量 y 表示 用 户 在 下 个 月 的 信用 卡 还 款 
中 是 否 存 在 违约 的 情况 〈1 表示 违约 ，0 表示 不 违约 ) 。 首 先 绘制 饼 图 ， 查 看 因 变 量 中 各 类 别 的 比 
例 差异 ， 代 码 如 下 : 


# 导入 第 三 方 包 
import pandas as pd 
import matplotlib.pyplot as Plt 


# 读 入 数据 

default = pd.read excell(r'C:\Users\Administrator\Desktop\default of credit card.xls') 

# 为 确保 绘制 的 饼 图 为 圆 形 ， 需 执行 如 下 代码 

plt.axes (aspect = 'equal') 

# 中 文 乱码 和 坐标 轴 负 号 的 处 理 

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 

plt.rcParams['axes.unicode minus'] = False 

# 统计 客户 是 否 违约 的 频数 

counts = default.y.value counts() 

# 绘制 饼 图 

plt.pie (x = counts，# 绘图 数据 
labels=pd.Series (counts.index) .map({0: ' 不 违约 ', 1:' 违 约 '}) ，# 添加 文字 标签 
autopct="' 名 .1f%%， # 设置 百分比 的 格式 ， 这 里 保留 一 位 小 数 


1 
# 显示 图 形 
plt.show() 


见 图 14-1。 
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14-1 客户 是 否 违约 的 比例 


如 图 14-1 所 示 ， 数 据 集中 违约 客户 占 比 为 22.1%， 不 违约 客户 占 比 为 77.9%， 总 体 来 说 ， 两 
个 类 别 的 比例 不 算 失衡 (一 般 而 言 ， 如 果 两 个 类 别 比例 为 9:1， 则 认为 失衡 ， 如 果 比 例 为 99:1， 则 
认为 严重 失衡 ) 。 接 下 来 ， 基 于 这 样 的 数据 构建 AdaBoost 模型 ， 代 码 如 下 : 

# 导入 第 三 方 包 

from sklearn import model selection 


from sklearn import ensemble 
from sklearn import metrics 








# 排除 数据 集中 的 ID 变量 和 因 变 量 ， 剩 余 的 数据 用 作 自 变量 X 

X = default.drop(['ID','y'], axis = 1) 

y = default.y 

# 数据 拆 分 

XxX train,X test,y train,y test = model selection.train test split(X,y,test size = 0.25, 
random state = 1234) 


# 构建 AdaBoost 算法 的 类 

AdaBoostl1 = ensemble.AdaBoostClassifier () 
# 算法 在 训练 数据 集 上 的 拟 合 

RAdaBoost1.fit(X train,y 七 rain) 

# 算法 在 测试 数据 集 上 的 预测 

predl = RdaBoost1.Predict (X test) 


# 返回 模型 的 预测 效果 
print (' 模 型 的 准确 率 为 ，\n'vmetrics .accuracy_score(y_ test, pred1)) 
print (' 模 型 的 评估 报告 \n',metrics.classification report(y_test, pred1)) 


out: 
模型 的 准确 率 为 : 
0.812533333333 
模型 的 评估 报告 : 
Precision recall fl-score support 
0 0.83 0.96 0.89 5800 
1 0.68 0.32 0.44 1700 
avg / total 0.80 0.81 0.79 7500 





互 








如 上 结果 所 示 ， 在 调用 AdaBoost 类 构建 提升 树 算法 时 ， 使 用 了 “类 ”中 的 默认 参数 值 ， 返 
的 模型 准确 率 为 81.25%。 并 且 预 测 客户 违约 〈 因 变量 y 取 1) 的 精准 率 为 68%、 履 盖 率 为 32%; 
预测 客户 不 违约 〈 因 变量 y 取 0) 的 精准 率 为 83%、 履 盖 率 为 966%。 可 以 基于 如 上 的 预测 结果 ， 绘 
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制 算法 在 测试 数据 集 上 的 ROC 曲线 ， 代 码 如 下 : 















00 02 


04 06 
1-Specificity 
图 14-2 AdaBoost 算 法 的 ROC 曲线 


如 图 14-2 所 示 ，ROC 曲线 下 的 面积 为 0.78， 接 近 于 0.8， 可 知 AdaBoost 算法 在 该 数据 集 上 的 
表现 并 不 是 特别 突出 试问 是 否 可 以 通过 模型 参数 的 调整 改善 模型 的 预测 准确 率 呢 ? 接 下 来 通过 交 
叉 验 证 方法 ,选择 相对 合理 的 参数 值 。 在 参数 调 优 之 前 ,基于 如 上 的 模型 寻找 影响 客户 是 否 违约 的 
重要 因素 ， 进 而 做 一 次 特征 筛选 ， 代 码 如 下 : 






见 图 14-3。 
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图 14-3 变量 的 重要 性 排序 


如 图 14-3 所 示 ， 可 以 一 目 了 然 地 发 现 重要 的 自 变量 ， 如 客户 在 近 三 期 的 支付 状态 (PAY_0， 
PAY_1, PAY 2) 、 支付 金额 (PAY_AMTI、PAY_AMT2、PAY_AMT3)、 账 单 金额 (BILL_AMT1、 
BILL_AMT2、BILL_AMT3) 和 信用 额度 (LIMIT_BAL) ; 而 客户 的 性 别 、 受 教育 水 平 、 年 龄 、 
婚姻 状况 、 更 早期 的 支付 状态 、 支 付 金额 等 并 不 是 很 重要 。 接 下 来 就 基于 这 些 重要 的 自 变量 重新 建 
模 ， 并 使 用 交叉 验证 方法 获得 最 佳 的 参数 组 合 ， 代 码 如 下 : 

# 取出 重要 性 比较 高 的 自 变量 建 模 


Predictors = List(importance [importance>0.02] .index) 
Predictors 


# 通过 网 格 搜索 法 选择 基础 模型 所 对 应 的 合理 参数 组 合 

# 导入 第 三 方 包 

from sklearn.model selection import GridSearchCV 
from sklearn.tree import DecisionTreeClassifier 


max_depth = [3,4,5,6] 

Paramsl = {'base estimator max depth':max depth} 

base model = GridSearchCV (estimator = ensemble.AdaBoostClassifier (base_estimator = 
DecisionTreeClassifier()),param grid= paramsl, 
scoring = 'roc auc', cv = 5, n_jobs = 4, verbose = 1) 

base model.fit(X train[predictors],y train) 

# 返回 参数 的 最 佳 组 合 和 对 应 AUC 值 

base model.best params , base model.best score_ 


out: 
{'base estimator max depth': 3}, 0.74425046797936145 


如 上 结果 所 示 ， 经 过 5 重 交叉 验证 的 训练 和 测试 后 ， 对 于 基础 模型 CART 决策 树 来 说 ， 最 大 
的 树 深度 选择 为 3 层 比较 合理 。 需 要 说 明 的 是 ， 在 对 AdaBoost 算法 做 交叉 验证 时 ， 有 两 层 参 数 需 
要 调 优 ， 一 个 是 基础 模型 的 参数 ， 即 DecisionTreeClassifier 类 ; 另 一 个 是 提升 树 模型 的 参数 ， 即 
AdaBoostClassifier 类 。 在 对 基础 模型 调 参 时 ， 参 数字 典 paramsl 中 的 键 必须 以 “base_estimator _” 
开头 ， 因 为 该 参数 是 嵌 在 AdaBoostClassifier 类 下 的 DecisionTreeClassifier 类 中 。 

如 上 是 对 基础 模型 CART 决策 树 做 的 参数 调 优 过 程 , 还 需要 基于 这 个 结果 对 AdaBoost 算法 进 
行 参数 调 优 ， 代 码 如 下 : 
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# 导入 第 三 方 包 


from sklearn.model selection import GridSearchCV 


n estimators = [100,200,300] 

learning rate = [0.01,0.05,0.1,0.2] 

params2 = {'n estimators':n estimators,'learning rate':learning rate} 

adaboost = GridSearchCV(estimator = ensemble.AdaBoostClassifier(base estimator = 
DecisionTreeClassifier (max depth = 3)),param grid= params2, 
scoring = 'roc auc', cv = 5, n_jobs = 4, verbose = 1) 

adaboost .fit(X train[predictors] ,y train) 

# 返回 参数 的 最 佳 组 合 和 对 应 AUC 值 


adaboost .best params , adaboost.best score_ 


out: 
{'learning_rate': 0.01, 'n estimators': 300}, 0.76866547085583281 


如 上 结果 所 示 ， 经 过 5 重 交 叉 验证 后 ， 得 知 AdaBoost 算法 的 最 佳 基础 模型 个 数 为 300、 学 习 
率 为 0.01。 到 目前 为 止 ， 参 数 调 优 过 程 就 结束 了 《仅仅 涉及 基础 模型 CART 决策 树 的 深度 、 提 升 
树 中 包含 的 基础 模型 个 数 和 学 习 率 ) 。 如 果 读者 还 需 探索 其 他 更 多 的 参数 值 ， 只 需 对 如 上 代码 稍 做 
修改 即 可 修改 paramsl 和 params2) 。 

基于 如 上 的 调 参 结果 重新 构造 AdaBoost 模型 ， 并 检验 算法 在 测试 数据 集 上 的 预测 效果 ， 代 码 
如 下 : 

# 使 用 最 佳 的 参数 组 合 构建 AdaBoost 模型 

AdaBoost2 = ensemble.AdaBoostClassifier (base estimator = DecisionTreeClassifier(max depth = 
3),n_estimators = 300, learning rate = 0.01) 

# 算法 在 训练 数据 集 上 的 拟 合 

RdaBoost2.fit (X train[predictors],y train) 


# 算法 在 测试 数据 集 上 的 预测 
Pred2 = AdaBoost2.predict (X_test[predictors]) 


# 返回 模型 的 预测 效果 
print (' 模 型 的 准确 率 为 \n',metrics.accuracy_scorel(y test, pred2)) 
print (' 模 型 的 评估 报告 ; \n',metrics.classification report(y_test, pred2)) 


out: 
模型 的 准确 率 为 : 
0.816 
模型 的 评估 报告 : 
Precision recall fl-score support 
0 0.83 0.96 0.89 5800 
学 0.69 0.34 0.45 1700 
avg / total 0.80 0.82 0.79 7500 


如 上 结果 所 示 , 经 过 调 优 后 ， 模 型 在 测试 数据 集 上 的 预测 准确 率 为 81.6%， 相 比 于 默认 参数 的 
AdaBoost 模型 ， 准 确 率 仅 提高 0.35%。 


算法 处 理 该 数据 集 时 ， 模 型 的 准确 率 遇 到 了 瓶颈 ， 读 者 不 妨 对 比 测试 其 他 模型 ， 如 随机 森 
林 、SVM 等 。 
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14.2 ”梯度 提升 树 算法 


梯度 提升 树 算法 实际 上 是 提升 算法 的 扩展 版 ， 在 原始 的 提升 算法 中 ， 如 果 损 失 函 数 为 平方 损失 或 
指数 损失 ， 求 解 损失 函数 的 最 小 值 问题 会 非常 简单 ， 但 如 果 损 失 函 数 为 更 一 般 的 函数 〈 如 绝对 值 损失 
函数 或 Huber 损失 函数 等 ) ， 目 标 值 的 求解 就 会 相对 复杂 很 多 。 为 了 解决 这 个 问题 ，Freidman 提出 了 
梯度 提升 算法 ， 即 在 第 m 轮 基础 模型 中 ， 利 用 损失 函数 的 负 梯 度 值 作为 该 轮 基础 模型 损失 值 的 近似 ， 
并 利用 这 个 近似 值 构 建 下 一 轮 基础 模型 。 利 用 损失 函数 的 负 梯 度 值 近 似 残 差 的 计算 就 是 梯度 提升 算法 
在 提升 算法 上 的 扩展 ， 这 样 的 扩展 使 得 目标 函数 的 求解 更 为 方便 。GBDT 算法 属于 梯度 提升 算法 中 的 
经 典 算法 ， 接 下 来 介绍 有 关 该 算法 的 具体 步骤 以 及 算法 在 预测 和 分 类 问题 中 的 解决 方案 。 


14.2.1 GBDT 算法 的 操作 步骤 


GBDT 算法 同样 可 以 解决 分 类 问题 和 预测 问题 ， 算 法 在 运行 过 程 中 都 会 执行 如 下 几 个 步骤 : 
(1) 初始 化 一 棵 仅 包含 根 节 点 的 树 ， 并 寻找 到 一 个 常数 Const 能 够 使 损失 函数 达到 极 小 值 ; 
(2) 计算 损失 函数 的 负 梯 度 值 ， 用 作 残 差 的 估计 值 ， 即 : 
eg Ee 
Of CY) own 
(3) 利用 数据 集 (xi, rmi) 拟 合 下 一 轮 基础 模型 ， 得 到 对 应 的 /个 叶子 节点 Rmj，j = 1,2,…,]; 
计算 每 个 叶子 节点 Rowj 的 最 佳 拟 合 值 ， 用 以 估计 残 差 Pmi: 
Cmj = argmine > LO fim-1(Xi) + oO) 
XiERmj 
(4) 进而 得 到 第 m 轮 的 基础 模型 (x)， 再 结合 前 m 一 1 轮 的 基础 模型 ， 得 到 最 终 的 梯度 提升 
模型 ; 
Fu(x) = Fy-1(x)+ fm) 


= Fy_i(x)+ 六 cal (a E Rinj) 
Pet 
了 


a pa > em € Rmj) 


m=1 f=Y 
如 上 几 个 步骤 中 ，cmj 表 示 第 m 个 基础 模型 (x) 在 叶 节 点 j 上 的 预测 值 ，Fw(x) 表 示 由 MM 个 基础 
模型 构成 的 梯度 提升 树 ， 它 是 每 一 个 基础 模型 在 样本 点 x 处 的 输出 值 cmj 之 和 。 
与 AdaBoost 算法 一 样 ，GBDT 算法 也 能 够 非常 好 地 解决 离散 型 因 变 量 的 分 类 和 连续 型 因 变 量 
的 预测 。 接 下 来 按照 上 面 介绍 的 5 个 步骤 ， 分 别 讲解 分 类 和 预测 问题 在 GBDT 算法 的 实现 过 程 。 
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14.2.2 ”GBDT 分 类 算法 


当 因 变量 为 离散 的 类 别 变量 时 ， 无 法 直接 利用 各 个 类 别 值 拟 合 残 差 pw 〈 因 为 残 差 是 连续 的 数 
值 型 ) 。 为 了 解决 这 个 问题 ， 通 常 将 GBDT 算法 的 损失 函数 设置 为 指数 损失 函数 或 对 数 似 然 损 失 
函数 ， 进 而 可 以 实现 残 差 的 数值 化 。 如 果 损 失 函 数 选择 为 指数 损失 函数 ，GBDT 算法 实际 上 退化 为 
AdaBoost 算法 ; 如 果 损 失 函 数 选择 为 对 数 似 然 损失 函数 ,GBDT 算法 的 残 差 类 似 于 Logistic 回归 的 
对 数 似 然 损 失 。 这 里 不 妨 以 二 分 类 问题 为 例 ， 并 选择 对 数 似 然 损 失 函 数 ， 介 绍 GBDT 分 类 算法 的 
计算 过 程 : 

(1) 初始 化 一 个 弱 分 类 器 : 


万 CD = argmine LOO) 
i=1 














(2) 计算 损失 函数 的 负 梯 度 值 : 
和 加 
人 of x) jz- a 
放 (1+exp(-y:f (2))) 
Of (xi) 
= 一 一 = 
1+exp(—yif (xi)) 
(3) 利用 数据 集 (xi, rmi) 拟 合 下 一 轮 基础 模型 : 
J 
= > cmjl (xi € Rmj) 


i 


f (2)=fm-1(x) 


其 中 ，cmj = argminc > log (1 + exp(—yi(fn_1(xi) 十 ©))) 4 


XiERmj 
(4) 重复 (2) 和 (3) ， 并 利用 m 个 基础 模型 ， 构 建 梯度 提升 模型 : 


Fu (x) = Fy-1(x) + fn(x) 
= 543) n(n ER 


14.2.3 ”GBDT 回归 算法 


如 果 因 变 量 为 连续 的 数值 型 变量 ， 问 题 就 会 相对 简单 很 多 ， 因 为 输出 的 残 差 值 本 身 就 是 数值 
型 的 。GBDT 回归 算法 的 损失 函数 就 有 比较 多 的 选择 了 ， 例 如 平方 损失 函数 、 绝 对 值 损失 函数 、 
Huber 损失 函数 和 分 位 数 回归 损失 函数 ， 这 些 损失 函数 都 可 以 非常 方便 地 进行 一 阶 导 函数 的 计算 。 
这 里 不 妨 以 平方 损失 函数 为 例 ， 介 绍 GBDT 回归 算法 的 计算 过 程 : 


(1) 初始 化 一 个 弱 回 归 器 : 
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CD = argmine 》 Lu 


(2) 计算 损失 函数 的 负 梯 度 值 : 
0 Ee 
of Ge) {C0=fm-1) 
_ 36-69) 
of GD) 
fF)=fm-1(x) 
= yi— f(xi) 
(3) 利用 数据 集 (xi, rmi) 拟 合 下 一 轮 基础 模型 : 


了 
万 (x) = yl E Rn)) 
j=1 


1 2 
其 中 ,cmj =argmine 》 (Yi n(x) +0)) 。 


XiERmj 


(4) 重复 (2) 和 (3) ， 并 利用 m 个 基础 模型 ， 构 建 梯度 提升 模型 : 
M J 
Fab) = Fa) + fate) = 》》 cml (x € Row) 


m=1 j=1 


14.2.4 ”GBDT 算法 的 应 用 


在 Python 中 同样 可 以 非常 方便 地 将 GBDT 算 法 落地 ,读者 只 需 导入 sklearn 的 子 模块 ensemble， 
并 从 中 调 入 GradientBoostingClassifier 类 或 GradientBoostingRegressor 类 ， 其 中 
GradientBoostingClassifier 用 于 解决 分 类 问题 ，GradientBoostingRegressor 则 用 于 解决 预测 问题 。 有 
关 这 两 个 类 的 语法 和 参数 含义 如 下 : 


GradientBoostingClassifier(loss='deviance', learning rate=0.1, n estimators=100, 
subsample=1.0, criterion='friedman mse', min samples _ split=2, 
min samples leaf=1, min weight fraction leaf=0.0, 
max depth=3, min impurity decrease=0.0, 
min impurity split=None, init=None, random state=None, 
max_features=None, verbose=0, max leaf nodes=None, 
warm start=False, presort='auto') 


GradientBoostingRegressor (loss='ls', learning rate=0.1, n estimators=100, subsample=1.0, 
criterion='friedman mse', min samples split=2, 
min samples leaf=1, min weight fraction leaf=0.0, max depth=3, 
min impurity decrease=0.0, min impurity split=None, init=None, 
random state=None, max features=None, alpha=0.9, verbose=0, 
max leaf nodes=None, warm start=False, presort='auto') 


@ ”loss: 用 于 指定 GBDT 算法 的 损失 函数 ,对 于 分 类 的 GBDT, 可 以 选择 'deviance' 和 'exponential'， 
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分 别 表示 对 数 似 然 损失 函数 和 指数 损失 函数 ; 对 于 预测 的 GBDT， 可 以 选择 'ls' 'lad' huber 和 
'quantile， 分 别 表示 平方 损失 函数 、 绝 对 值 损失 函数 、Huber 损失 函数 ( 前 两 种 损失 函数 的 结 
合 ， 当 误差 较 小 时 ， 使 用 平方 损失 ， 否 则 使 用 绝对 值 损失 ， 误 差 大 小 的 度量 可 使 用 alpha 参 
数 指定 ) 和 分 位 数 回归 损失 函数 ( 需 通过 alpha 参数 设 定 分 位 数 )。 

leaming rate: 用 于 指定 模型 迭代 的 学 习 率 或 步 长， 即 对 应 的 梯度 提升 模型 F(X) 可 以 表示 为 
FwuGo = Fw-iCo +ufmG9:， 其 中 的 u 就 是 该 参数 的 指定 值 ， 默 认 值 为 0.1; 对 于 较 小 的 学 习 率 u 而 
言 ， 则 需要 和 迭代 更 多 次 的 基础 分 类 器 ， 通 常情 况 下 需要 利用 交叉 验证 法 确定 合理 的 基础 模型 
的 个 数 和 学 习 率 。 


@ n_estimators: 用 于 指定 基础 模型 的 数量 ， 默 认为 100 个 。 
@ ”subsample: 用 于 指定 构建 基础 模型 所 使 用 的 抽样 比例 ， 默 认为 1， 表 示 使 用 原始 数据 构建 每 


一 个 基础 模型 ; 当 抽样 比例 小 于 1 时 ， 表 示 构 建 随机 梯度 提升 树 模型 ， 通 常会 导致 模型 的 方 
差 降低 ， 偏 差 提高 。 

criterion: 用 于 指定 分 割 质量 的 度量 ， 默 认为 'friedman_mse'， 表 示 使 用 Friedman 均 方 误差 ， 
还 可 以 使 用 mse' 和 'mae'， 分 别 表示 均 方 误差 和 绝对 误差 。 

min_samples_split: 用 于 指定 每 个 基础 模型 的 根 节点 或 中 间 节 点 能 够 继续 分 割 的 最 小 样本 量 ， 
默认 为 2。 


。 min_samples leaf 用 于 指定 每 个 基础 模型 的 叶 节 点 所 包含 的 最 小 样本 量 ， 默 认为 1。 
@ min_weight fraction_leaf: 用 于 指定 每 个 基础 模型 叶 节 点 最 小 的 样本 权重 ， 默 认为 0， 表 示 不 


考虑 叶 节点 的 样本 权 值 。 


emax_depth: 用 于 指定 每 个 基础 模型 所 包含 的 最 大 深度 ， 默 认为 3 层 。 
emin impurity decrease: 用 于 指定 每 个 基础 模型 的 节点 是 否 继续 分 害 的 最 小 不 纯度 值 ， 默 认为 


0; 如 果 不 纯度 超过 指定 的 阅 值 ， 则 节点 需要 分 割 ， 否 则 不 分 割 。 
min_impurity_split: 该 参数 同 min_impurity_decrease 参数 ， 在 skleam 的 0.21 版 本 及 之 后 版 本 
将 删除 。 


einit: 用 于 指定 初始 的 基础 模型 ， 用 于 执行 初始 的 分 类 或 预测 。 
erandom state: 用 于 指定 随机 数 生成 器 的 种 子 , 默认 为 None, 表示 使 用 默认 的 随机 数 生成 器 。 
e max features: 用 于 指定 每 个 基础 模型 所 包含 的 最 多 分 割 字段 数 ， 默 认为 None， 表 示 分 割 时 


使 用 所 有 的 字段 ; 如 果 为 具体 的 整数 , 则 考虑 使 用 对 应 的 分 割 字 段 数 ; 如 果 为 0~1 的 浮 点 数 ， 
则 考虑 对 应 百分比 的 字段 个 数 ; 如 果 为 sqrt， 则 表示 最 多 考虑 VE 个 字段 ， 与 指定 'auto' 效 果 一 
致 ; 如 果 为 log2,， 则 表示 最 多 使 用 logzP 个 字段 。 其 中 ，P 表 示 数 据 集 所 有 自 变 量 的 个 数 。 


@ verbose: 用 于 指定 GBDT 算法 在 计算 过 程 中 是 否 输出 日 志 信息 ， 默 认为 0， 表 示 不 输出 。 
@ alpha: 当 loss 参数 为 huber' 或 'quantile' 时 ， 该 参数 有 效 ， 分 别 用 于 指定 误差 的 阔 值 和 分 位 数 。 
@ max_ leaf nodes: 用 于 指定 每 个 基础 模型 最 大 的 叶 节点 个 数 ， 默 认为 None， 表 示 对 叶 节 点 个 


数 不 做 任何 限制 。 


® ”warm_ start: bool 类 型 参数 ， 表 示 是 否 使 用 上 一 轮 的 训练 结果 ， 默 认为 False。 
@ ”presort: bool 类 型 参数 ， 表 示 是 否 在 构建 基础 模型 时 对 数据 进行 预 排 序 (用 于 快速 寻找 最 佳 


分 割 点 )， 默 认为 auto'。 当 数据 集 比较 密集 时 ， 该 参数 自动 对 数据 集 做 预 排序 ; 当 数据 集 比 
较 稀 朴 时 ， 则 无 须 预 排 序 ; 对 于 稀疏 数据 来 说 ,设置 该 参数 为 True 时 ， 反 而 会 提高 模型 的 错 
误 率 。 
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本 节 的 项 目 实战 部 分 仍然 使 用 上 一 节 中 所 介绍 的 客户 信用 卡 违约 数据 ， 并 对 比 GBDT 算法 和 
AdaBoost 算法 在 该 数据 集 上 的 效果 差异 。 首 先 ， 利 用 交叉 验证 方法 ， 测 试 GBDT 算法 各 参数 值 的 
效果 ， 并 从 中 挑选 出 最 佳 的 参数 组 合 ， 代 码 如 下 : 


# 运用 网 格 搜索 法 选择 梯度 提升 树 的 合理 参数 组 合 

learning rate = [0.01,0.05,0.1,0.2] 

n_estimators = [100,200,300] 

max depth = [3,4,5,6] 

params = {'learning rate':learning rate,'n estimators':n estimators, 'max depth':max depth} 

gbat grid = GridSearchCV (estimator = ensemble.GradientBoostingClassifier(), 
Param grid= params, scoring = 'roc auc', 
cv = 5, n jobs = 4, verbose = 1) 

gbat grid.fit (xX train[predictors],y train) 

# 返回 参数 的 最 佳 组 合 和 对 应 AUC 值 

gbat grid.best params , gbdt grid.best score_ 


out: 
{'learning rate': 0.05, 'max depth': 5, 'n estimators': 100}, 0.77397780446802755 


如 上 结果 所 示 ， 运 用 5 重 交 叉 验 证 方法 对 基础 模型 树 的 深度 、 基 础 模型 个 数 以 及 提升 树 模型 
的 学 习 率 三 个 参数 进行 调 优 ， 得 到 的 最 佳 组 合 值 为 5、100 和 0.05。 而 且 验 证 后 的 最 佳 AUC 值 为 
0.77， 进 而 利用 这 样 的 参数 组 合 ， 对 测试 数据 集 进行 预测 ， 代 码 如 下 : 

# 基于 最 佳 参数 组 合 的 GBDT 模型 ， 对 测试 数据 集 进行 预测 

Pred = gbdt grid.predict (Xx test [predictors]) 

# 返回 模型 的 预测 效果 


print (' 模 型 的 准确 率 为 : \n',metrics.accuracy_score(ly test, pred)) 
print (' 模 型 的 评估 报告 \n',metrics.classification report(y_test, pred)) 


out: 
模型 的 准确 率 为 : 
0.814266666667 
模型 的 评估 报告 : 
precision recall fl-score support 
0 0.83 0.95 0.89 5800 
1 0.68 0.35 0.46 1700 
avg / total 0.80 0.81 0.79 7500 


如 上 结果 所 示 ，GBDT 模型 在 测试 数据 集 上 的 预测 效果 与 AdaBoost 算法 基本 一 致 ， 进 而 可 以 
说 明 GBDT 算法 采用 一 阶 导 函 数 的 值 近似 残 差 是 合理 的 , 并 且 这 种 近似 功能 也 提升 了 AdaBoost 算法 求 
解 目标 函数 时 的 便捷 性 。 基 于 GBDT 算法 的 预测 结果 ， 也 可 以 绘制 一 幅 ROC 曲线 图 ， 代 码 如 下 : 


# 计算 客户 违约 的 概率 值 ， 用 于 生成 Roc 曲线 的 数据 

Y_score = gbdt grid.predict proba(X test[predictors])[:,1] 
fpr, tpr, threshold = metrics.roc curvely test, y_score) 

# 计算 AUc 的 值 


roc auc = metrics.auc (fpr,tpr) 


# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 
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plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 
# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = $%0.2f)' % roc auc) 
# 添加 x 轴 与 y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

# 显示 图 形 

plt.show() 


见 图 14-4。 








00 02 





图 144 GBDT 算 法 的 ROC 曲线 


14.3 “ 非 平 衡 数 据 的 处 理 


在 实际 应 用 中 ， 读 者 可 能 会 碰 到 一 种 比较 头疼 的 问题 ， 那 就 是 分 类 问题 中 类 别 型 的 因 变 量 可 
能 存在 严重 的 偏 倚 ， 即 类 别 之 间 的 比例 严重 失调 。 如 欺诈 问题 中 ， 欺诈 类 观测 在 样本 集中 毕竟 占 少 
数 ; 客户 流失 问题 中 ， 忠实 的 客户 往往 也 是 占 很 少 一 部 分 ; 在 某 营销 活动 的 响应 问题 中 ， 真 正 参与 
活动 的 客户 也 同样 只 是 少 部 分 。 

如 果 数 据 存在 严重 的 不 平衡 ， 预 测 得 出 的 结论 往往 也 是 有 偏 的 ， 即 分 类 结果 会 偏向 于 较 多 观 
测 的 类 。 对 于 这 种 问题 该 如 何 处理 呢 ? 最 简单 粗暴 的 办 法 就 是 构造 1:1 的 数据 , 要 么 将 多 的 那 一 类 
砍 掉 一 部 分 〈 欠 采样 ) ， 要 么 将 少 的 那 一 类 进行 Bootstrap 抽样 (过 采样 )。 但 这 样 做 会 存在 问题 ， 
对 于 第 一 种 方法 , 砍 掉 的 数据 会 导致 某 些 隐 含 信息 的 丢失 ; 而 第 二 种 方法 中 , 有 放 回 的 抽样 形成 的 
简单 复制 ， 又 会 使 模型 产生 过 拟 合 。 

为 了 解决 数据 的 非 平衡 问题 ，2002 年 Chawla 提出 了 SMOTE 算法 ， 即 合成 少数 过 采样 技术 ， 
它 是 基于 随机 过 采样 算法 的 一 种 改进 方案 。 该 技术 是 目前 处 理 非 平衡 数据 的 常用 手段 , 并 受到 学 术 
界 和 工业 界 的 一 致 认同 ， 接 下 来 简单 描述 一 下 该 算法 的 理论 思想 。 

SMOTE 算法 的 基本 思想 就 是 对 少数 类 别 样本 进行 分 析 和 模拟 , 并 将 人 工 模拟 的 新 样本 添加 到 
数据 集中 ， 进 而 使 原始 数据 中 的 类 别 不 再 严重 失衡 。 该 算法 的 模拟 过 程 采用 了 KNN 技术 ， 模 拟 生 
成 新 样本 的 步骤 如 下 


(1) 采样 最 邻近 算法 ， 计 算出 每 个 少数 类 样本 的 个 近邻 。 
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(2) 从 个 近邻 中 随机 挑选 N 个 样本 进行 随机 线性 插值 。 
(3) 构造 新 的 少数 类 样本 。 
(4) 将 新 样本 与 原 数据 合成 ， 产 生 新 的 训练 集 。 


为 了 使 读者 理解 SMOTE 算法 实现 新 样本 的 模拟 过 程 , 可 以 参考 图 14-5 和 人 工 新 样本 的 生成 过 程 。 





图 14-5 ”SMOTE 算法 示意 图 


如 图 14-5 所 示 , 实心 圆 点 代表 的 样本 数量 要 明显 多 于 五 角 星 代表 的 样本 点 , 如 果 使 用 SMOTE 

算法 模拟 增加 少 类 别 的 样本 点 ， 则 需要 经 过 如 下 几 个 步骤 : 

(1) 利用 第 11 章 所 介绍 的 KNN 算法 ,选择 离 样本 点 xi 最 近 的 K 个 同类 样本 点 (不妨 最 近邻 
为 5) 。 

(2) 从 最 近 的 K 个 同类 样本 点 中 ， 随 机 挑选 M 个 样本 点 (不 妨 设 M 为 2) ，M 的 选择 依赖 
于 最 终 所 希望 的 平衡 率 。 

(3) 对 于 每 一 个 随机 选中 的 样本 点 , 构造 新 的 样本 点 。 新 样本 点 的 构造 需要 使 用 下 方 的 公式 : 

Xnew = Xi+rand(0,1) x 人 一 xi), j=12,:…,M 


其 中 ，xi 表 示 少 数 类 别 中 的 一 个 样本 点 (如 图 14-5 中 五 角 星 所 代表 的 zi 样本) ; wy 表 示 从 K 
近邻 中 随机 挑选 的 样本 点 j; rand(0,1) 表 示 生 成 0~1 的 随机 数 。 

假设 图 14-5 中 样本 点 x 的 观测 值 为 (2,3,10,7)， 从 图 中 的 5 个 近邻 随机 挑选 两 个 样本 点 ， 它 们 
的 观测 值 分 别 为 (1,1,5,8) 和 (2,1,7,6)， 由 此 得 到 的 两 个 新 样本 点 为 : 

Xnew1 = (2,3,10,7) + 0.3 x ((1,1,5,8) — (2,3,10,7)) = (1.7,2.4,8.5,7.3) 
Xnew2 = (2,3,10,7) + 0.26 x ((2,1,7,6) — (2,3,10,7)) = (2,2.48,9.22,6.74) 

(4) 重复 步骤 (1) 、 (2) 和 (3) ， 通 过 和 迭代 少数 类 别 中 的 每 一 个 样本 i， 最 终 将 原始 的 少 
数 类 别 样本 量 扩大 为 理想 的 比例 。 

通过 SMOTE 算法 实现 过 采样 的 技术 并 不 是 太 难 ,读者 可 以 根据 上 面 的 步骤 自 定义 一 个 抽样 函 
数 。 当 然 ， 读 者 也 可 以 借助 于 imblearn 模块 ， 并 利用 其 子 模块 over_sampling 中 的 SMOTE“ 类 ” 
实现 新 样本 的 生成 。 有 关 该 “类 ”的 语法 和 参数 含义 如 下 : 


SMOTE (ratio='auto', random state=None, k neighbors=5, m neighbors=10, 
out_step=0.5, kind='regular', svm estimator=None, n_jobs=1) 


日 ratio: 用 于 指定 重 抽样 的 比例 ， 如 果 指 定 字 符 型 的 值 ， 可 以 是 'minority' (表示 对 少数 类 别 的 
样本 进行 抽样 )、'majority' (表示 对 多 数 类 别 的 样本 进行 抽样 )、'not minority' (表示 采用 欠 采 
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样 方法 )、'all (表示 采用 过 采样 方法 )， 默 认为 'auto'， 等 同 于 'all' 和 'hot minority'。 如 果 指定 字 

典型 的 值 ， 其 中 键 为 各 个 类 别 标 签 ， 值 为 类 别 下 的 样本 量 。 

random_state: 用 于 指定 随机 数 生 成 器 的 种 子 , 默认 为 None, 表示 使 用 默认 的 随机 数 生成 器 。 

k_neighbors: 指定 近邻 个 数 ， 默 认为 5 个 。 

m_neighbors: 指定 从 近邻 样本 中 随机 挑选 的 样本 个 数 ， 默 认为 10 个 。 

kind: 用 于 指定 SMOTE 算法 在 生成 新 样本 时 所 使 用 的 选项 ， 默 认为 regular， 表 示 对 少数 类 

别 的 样本 进行 随机 采样 ， 也 可 以 是 'borderline1' 'borderline2' 和 'svm'。 

@ ”svm_estimator: 用 于 指定 SVM 分 类 器 ， 默 认为 sklearn.svm.SVC， 该 参数 的 目的 是 利用 支持 
向 量 机 分 类 器 生成 支持 向 量 ， 然 后 生成 新 的 少数 类 别 的 样本 。 

e@ n jobs: 用 于 指定 SMOTE 算法 在 过 采样 时 所 需 的 CPU 数量 ， 默 认为 1 表示 仅 使 用 1 个 CPU 
运行 算法 ， 即 不 使 用 并 行 运算 功能 。 


14.4 XGBoost 算法 


XGBoost 是 由 传统 的 GBDT 模型 发 展 而 来 的 ， 在 上 一 节 中 ，GBDT 模型 在 求解 最 优化 问题 时 
应 用 了 一 阶 导 技 术 ， 而 XGBoost 则 使 用 损失 函数 的 一 阶 和 二 阶 导 ， 更 神奇 的 是 用 户 可 以 自 定义 损 
失 函 数 , 只 要 损失 函数 可 一 阶 和 二 阶 求 导 。 除 此 , XGBoost 算法 相 比 于 GBDT 算法 还 有 其 他 优点 ， 
例如 支持 并 行 计算 ， 大 大 提高 算法 的 运行 效率 ，XGBoost 在 损失 函数 中 加 入 了 正则 项 ， 用 来 控制 
模型 的 复杂 度 ， 进 而 可 以 防止 模型 的 过 拟 合 ; XGBoost 除了 支持 CART 基础 模型 ， 还 支持 线性 基 
础 模型 ，XGBoost 采用 了 随机 森林 的 思想 ， 对 字段 进行 抽样 既 可 以 防止 过 拟 合 ， 也 可 以 降低 模 
型 的 计算 量 。 既 然 XGBoost 算法 有 这 么 多 优点 ， 接 下 来 就 详细 研究 一 下 该 算法 背后 的 理论 知识 。 


14.4.1 XGBoost 算法 的 损失 函数 


正如 前 文 所 说 ， 提 升 算法 的 核心 思想 就 是 多 个 基础 模型 的 线性 组 合 ， 对 于 一 棵 含有 t 个 基础 模 
型 的 集成 树 来 说 ， 该 集成 树 可 以 表示 为 : 


ne ->rem- RD + fe) 


其 中 , 允 斩 表示 经 第 ! 轮 迭代 后 的 模型 预测 值 , 色 (“D 了 表示 已 知 t 一 1 个 基础 模型 的 预测 值 , f(xi) 
表示 第 t 个 基础 模型 。 按 照 如 上 的 集成 树 ， 关 键 点 就 是 第 t 个 基础 模型 的 选择 。 对 于 该 问题 ， 如 前 
文 提升 算法 中 所 提 及 的 ， 只 需要 寻找 一 个 能 够 使 目标 函数 尽 可 能 最 大 化 降低 的 大 即 可 ， 故 构造 的 目 
标 函 数 如 下 : 


n t 
0bj = > L(y OO)+ > Q(f) 


i=1 i=1 


n t 
= RY +AGD)+ > of) 
j=1 
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其 中 ，Q( 万 ) 为 第 /个 基础 模型 的 正则 项 ， 用 于 控制 模型 的 复杂 度 。 为 了 简单 起 见 ， 不 妨 将 损失 
函数 L 表 示 为 平方 损失 ， 则 如 上 的 目标 函数 可 以 表示 为 


Obj® =>- 全 D +f 中 >on 


n t 
-=》 人 + (RD + Co 一 2 (RD + Ga )) + > a(f) 
本 1 j=1 

n t 
= > RCDRTD -+A + RD) )+ 2 o(f) 
i=1 人 =: 


由 于 前 t 一 1 个 基础 模型 是 已 知 的 ， 故 旬 <2 的 预测 值 也 是 已 知 的 ， 同 时 前 t - 1 个 基础 模型 的 
复杂 度 也 是 已 知 的 ， 故 不 妨 将 所 有 的 已 知 项 设 为 常数 constant， 则 目标 函数 可 以 重新 表达 为 : 





Obj(d = yereoGe —yi) + f(x)’) + Qfe) + constant 
i=1 
其 中 , (多 (D7 一 yi) 项 就 是 前 t 一 1 个 基础 模型 所 产生 的 残 差 ,说明 目标 函数 的 选择 与 前 t 一 1 个 

基础 模型 的 残 差 相关 ， 这 一 点 与 GBDT 是 相同 的 。 如 上 是 假设 损失 函数 为 平方 损失 ， 对 于 更 一 般 
的 损失 函数 来 说 ， 可 以 使 用 泰勒 展开 对 损失 函数 值 做 近似 估计 。 

根据 泰勒 展开 式 : 

f(x+Ax) = f(x) + f(x)'Ax + fx)"Ax? 

其 中 ,f(x) 是 一 个 具有 二 阶 可 导 的 函数 ，f(x)' 为 1(x) 的 一 阶 导 函 数 ，f(x)" 为 1() 的 二 阶 导 函 
数 ，Ax 为 1(x) 在 某 点 处 的 变化 量 。 假 设 令 损 失 函 数 L 为 泰勒 公式 中 的 f， 令 损失 函数 中 人 <- 了 项 为 泰 
勒 公式 中 的 x， 令 损失 函数 中 所 (xi) 项 为 泰勒 公式 中 的 Ax， 则 目标 函数 0bj 中 可 以 近似 表示 为 : 


Obj®© = py L (yuR ED + feD)) + Of) + constant 


i=1 
= 》 (LO%ReD) + gD) + Fm)?) + QD + constant 
i=1 
其 中 ，gi 和 hi 分 别 是 损失 函数 L(yi, 双 (了) 关于 各 “了 ?的 一 阶 导 函 数值 和 二 阶 导 函 数值 ， 即 它们 


可 以 表示 为 : 
aL RD) 


泌 三 EGE 
_ L(y) 
和 Epc 


所 以 ， 在 求解 目标 函数 0bj 中 的 最 优化 问题 时 ， 需 要 用 户 指定 一 个 可 以 计算 一 阶 导 和 二 阶 导 的 
损失 函数 ， 过 由 加 庆生 站 首 才 训 针 1 贡 “ 了)) 值 ,gi; 值 和 hi 值 .这 样 一 来 ,为 求解 关于 所 (xi) 的 
目标 函数 0bj 四 ， 只 需求 解 第 t 个 基础 模型 大 所 对 应 的 正则 项 Q(f) 即 可 ， 那 Q(f) 该 如 何 求解 呢 ? 
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14.4.2 ”损失 函数 的 演变 


假设 基础 模型 所 由 CART 树 构成 ， 对 于 一 棵 树 来 说 ， 它 可 以 被 拆 分 为 结构 部 分 4， 以 及 叶子 节 
点 所 对 应 的 输出 值 w。 可 以 利用 这 两 部 分 反映 树 的 复杂 度 ， 即 复杂 度 由 树 的 叶子 节点 个 数 ( 反 映 树 
的 结构 ) 和 叶子 节点 输出 值 的 平方 构成 : 


等 
下 
A(f) =YT+74》 w? 
j=1 


其 中 , 7 表示 叶子 节点 的 个 数 , we? 表示 输出 值 向 量 的 平方 CART 树 生长 得 越 复 杂 , 对 应 的 7 越 
大 ，Q( 用 也 越 大 。 
根据 上 面 的 复杂 度 方程 ， 可 以 将 目标 函数 0bj 中 改写 为 : 


n 
ee 和 
Obj®© ~ (Los 到 1) + gifix) + zhife(x)?) + QD) + constant 


外 
中 


j=1 
于 


a 


[4 让。 


里 
业 和 
(gif: * Fife)?) +YT+ 242, w? + constant 


. 
giwalxd) + Zhiwacy’) 二 w? + constant 


T 
昌 


Rab 


(Bo Eb 所 ) Féonstant 


ielj ielj j=1 


-人 + io + 2) ) +YT + constant 


ielj iel} 


~ 
1 
> 


如 上 推导 所 示 ， 由 于 L(yi, 允 (了) 是 关于 前 t 一 1 个 基础 模型 的 损失 值 ， 它 是 一 个 已 知 量 ， 故 将 
其 归纳 至 常数 项 constant 中 ;wa 表示 第 ;个 样本 点 的 输入 值 xi 所 对 应 的 输出 值 ，i e 1 表示 每 个 叶 
子 节点 /中 所 包含 的 样本 集合 。 在 如 上 的 推导 过 程 中 ， 最 关键 的 地 方 是 倒数 第 二 行 ， 非 常 巧妙 地 将 
样本 点 的 和 转换 为 叶子 节点 的 和 ， 从 而 降低 了 算法 的 运算 量 。 对 于 目标 函数 0Obj@ 而 言 ， 我 们 是 希 
望 求解 它 的 最 小 值 ， 故 可 以 将 推导 结果 中 的 常数 项 忽略 掉 ， 进 而 目标 函数 重新 表示 为 : 


ObjG ~ > (人 " w+ (Zo + » wj | 十 YT 二 comnstant 


iel; ielj 


匡 
= >》 (2 oj + 
ja1\ \ie iElj 


时 
~ > (6w +3(H+ Dw?) 二 并 
ji 


其 中 ，G = Fiery 9i; 志 = ie hi。 它们 分 别 表示 所 有 属于 叶子 节点 /的 样本 点 对 应 的 gi 之 和 以 及 
hi 之 和 。 所以, 最 终 是 寻找 一 个 合理 的 所 ,使 得 式 子 27_ (Gjwj + 二 ( 态 十 办 w?) + YT 尽 可 能 大 地 减 小 。 
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由 于 构建 XGBoost 模 型 之 前 需要 指定 某 个 损失 函数 L( 如 平方 损失 .指数 损失 .Huber 损失 等 )， 
进而 某 种 树 结构 q 下 的 G; 和 万 是 已 知 的 。 所 以 要 想 求 得 0bj 的 最 小 化 ， 需 要 对 方程 中 的 wj (每 个 
叶子 节点 的 输出 值 》 求 偏 导 ， 并 令 导 函数 为 0， 即 








QO0bj® 

a =G;+(H+A)w=0 
6 
+1 


所 以 ， 将 w 的 值 导入 到 目标 函数 04bj 中 中 ， 可 得 : 
J0D = 中:(Gw +3(H + A)w?) + YT 


1 G7 
国 2 (起 + 
j=1 


现在 的 问题 是 , 树 结构 9 该 如 何 选择 ， 即 最 佳 的 树 结构 4 就 对 应 了 最 佳 的 基础 模型 瞩 。 最 笨 的 方 
法 就 是 测试 不 同 分 割 字段 和 分 割 点 下 的 树 结构 gq， 并 计算 它们 所 对 应 的 J(f) 值 ， 从 而 挑选 出 使 ](f) 
达到 最 小 的 树 结构 。 很 显然 ， 这 样 枚 举 出 所 有 的 树 结构 q 是 非常 不 方便 的 ， 计 算 量 也 是 非常 大 的 ， 
通常 会 选择 贪心 法 , 即 在 某 个 已 有 的 可 划分 节点 中 加 入 一 个 分 割 ,并 通过 计算 分 割 前 后 的 增益 值 决 
定 是 否 剪 枝 。 有 关 增 益 值 的 计算 如 下 : 
NR 全 
2\Hi+A HetA HitHet+A 
其 中 ，GL 和 有 i 为 某 节点 分 割 后 对 应 的 左 支 样本 点 的 导 函 数值 ，GR 和 Ha 为 某 节 点 分 割 后 对 应 的 
右 支 样本 点 的 导 函 数值 。 这 里 的 增益 值 Cain 其 实 就 是 将 某 节点 分 割 为 另外 两 个 节点 后 对 应 的 目标 
值 /(f) 的 减少 量 。 为 了 帮助 读者 理解 这 个 增益 的 计算 ， 可 以 参考 图 14-6。 


14-6 节点 分 割 前 后 示意 图 


其 中 ,用 表示 某 个 可 分 制 节点 在 分 割 前 的 目标 函数 值 ，Js 和 Js 则 代表 该 节点 按照 某 个 变量 x 在 a 
处 的 分 割 后 对 应 的 目标 函数 值 。 按 照 目 标 函数 的 公式 ， 可 以 将 这 三 个 值 表示 为 下 方 的 式 子 : 


_ 1/ (G+ Gr) 
= SY 


i 证 
hh=-amra)tY 


_ 1/ Gr’ 
R= Fa) *Y 
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根据 增益 值 G6ain 的 定义 , 可 以 计算 得 到 有 一 J 一 J 所 对 应 的 值 , 即 Gain。 所 以 , 在 实际 应 用 中 ， 
根据 某 个 给 定 的 增益 阔 值 ， 对 树 的 生长 进行 剪 枝 ， 当 节点 分 割 后 产生 的 增益 小 于 闪 值 时 ， 剪 掉 该 分 
割 ， 否 则 允许 分 割 。 最 终 ， 根 据 增 益 值 Cain 来 决定 最 佳 树 结构 4 的 选择 。 


14.4.3 XGBoost 算法 的 应 用 


XGBoost 算法 并 不 存在 于 sklearn 模块 中 ， 读 者 需要 另行 下 载 xgboost 模块 。 作 者 在 初次 下 载 
并 调用 该 模块 时 产生 了 错误 , 考虑 到 读者 也 可 能 出 现 类 似 的 错误 , 这 里 简单 描述 一 下 该 模块 的 下 载 
和 安装 过 程 ( 以 64 位 的 Window 系统 为 例 ) : 
@ 从 微软 官网 ( https://www.microsoft.com/zh-CN/download/details.aspx?id=13523 ) 下 载 
Vcredist_x64.exe 文件 ， 并 安装 到 电脑 中 。 
@ 从 Python 扩展 库 的 平台 (https:/www.lfd.uciedu/~gohlke/pythonlibs/ ) 下 载 对 应 版 本 (如 Python 
3.6 版 本 ) 的 xgboost 模块 。 
e 将 下 载 的 模块 解压 到 某 个 磁盘 路 径 中 ， 在 cmd 窗口 下 ， 锁 定 到 该 解压 文件 所 在 的 路 径 ， 并 执 
行 python setup.py install 命令 。 


不 出 意外 的 话 ，xgboost 模块 就 可 以 成 功 地 安装 在 Python 中 ， 通 过 import 将 其 激活 导入 ， 读 
者 只 需 调用 XGBClassifier 类 和 XGBRegressor 类 即 可 。 其 中 XGBClassifier 用 于 解决 分 类 问题 ， 
XGBRegressor 则 用 于 解决 预测 问题 。 有 关 这 两 个 类 的 语法 和 参数 含义 如 下 : 

XGBClassifier (max depth=3, learning rate=0.1, n estimators=100, silent=True, 

objective='binary:logistic', booster='gbtree', n jobs=1, nthread=None, 
gamma=0, min child weight=]1, max delta step=0, subsample=]1, 


colsample bytree=l1, colsample bylevel=1, reg alpha=0, reg lambda=1, 
scale pos weight=1, base score=0.5, random state=0, seed=None, missing=None) 


XGBRegressor (max depth=3, learning rate=0.1, n estimators=100, silent=True, 
objective='reg:linear', booster='gbtree', n jobs=l1, nthread=None, 
gamma=0, min child weight=1, max delta step=0, subsample=1, 
colsample bytree=1, colsample bylevel=]1, reg alpha=0, reg lambda=1, 
scale pos weight=]1, base_score=0.5, random state=0, seed=None, missing=None) 
max_depth: 用 于 指定 每 个 基础 模型 所 包含 的 最 大 深度 ， 默 认为 3 层 。 
leaming rate: 用 于 指定 模型 迭代 的 学 习 率 或 步 长 , 默认 为 0.1， 即 对 应 的 梯度 提升 模型 Fi(x) 可 
以 表示 为 Fr(x) = Fr-i(x)+vfi(x): ， 其 中 的 v 就 是 该 参数 的 指定 值 ， 默 认 值 为 1; 对 于 较 小 的 学 
习 率 u 而 言 ， 则 需要 和 迭代 更 多 次 的 基础 分 类 器 , 通常 情况 下 需要 利用 交叉 验证 法 确定 合理 的 基 
础 模型 的 个 数 和 学 习 率 。 
n_estimators: 用 于 指定 基础 模型 的 数量 ， 默 认为 100 个 。 
silent: bool 类 型 参数 ， 是 否 输出 算法 运行 过 程 中 的 日 志 信息 ， 默 认为 True。 
objective: 用 于 指定 目标 函数 中 的 损失 函数 类 型 ， 对 于 分 类 型 的 XGBoost 算法 ， 默 认 的 损失 
函数 为 二 分 类 的 Logistic 损失 (模型 返回 概率 值 ) 也 可 以 是 ,multi:softmax', 表 示 用 于 处 理 多 分 
类 的 损失 函数 (模型 返回 类 别 值 ), 还 可 以 是 Imulti:softprob'， 与 Imulti:softmax' 相 同 ， 所 不 同 的 
是 模型 返回 各 类 别 对 应 的 概率 值 ; 对 于 预测 型 的 XGBoost 算法 ， 默 认 的 损失 函数 为 线性 回归 
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损失 。 

booster: 用 于 指定 基础 模型 的 类 型 ， 默 认为 gbtree'， 即 CART 模型 ， 也 可 以 是 'gblinear， 表 示 
基础 模型 为 线性 模型 。 

n_jobs: 用 于 指定 XGBoost 算法 在 并 行 计算 时 所 需 的 CPU 数量 ， 默 认为 1 表示 仅 使 用 1 个 
CPU 运行 算法 ， 即 不 使 用 并 行 运算 功能 。 

nthread: 用 于 指定 XGBoost 算法 在 运行 时 所 使 用 的 线程 数 ， 默 认为 None， 表 示 使 用 计算 机 
最 大 可 能 的 线程 数 。 


egamma: 用 于 指定 节点 分 割 所 需 的 最 小 损失 函数 下 降 值 ， 即 增益 值 Gain 的 阅 值 ， 默 认为 0。 
e@ min_child_weight: 用 于 指定 叶子 节点 中 各 样本 点 二 阶 导 之 和 的 最 小 值 ， 即 Hj 的 最 小 值 ， 默 认 


为 1， 该 参数 的 值 越 小 ， 模 型 越 容易 过 拟 合 。 

max_delta_step: 用 于 指定 模型 在 更 新 过 程 中 的 步 长 ， 如 果 为 0， 表示 没有 约束 ; 如 果 取 值 为 
某 个 较 小 的 正 数 ， 就 会 导致 模型 更 加 保守 。 

subsample: 用 于 指定 构建 基础 模型 所 使 用 的 抽样 比例 ， 默 认为 1， 表 示 使 用 原始 数据 构建 每 
一 个 基础 模型 ; 当 抽样 比例 小 于 1 时 ， 表 示 构 建 随机 梯度 提升 树 模型 ， 通 常会 导致 模型 的 方 
差 降低 ， 偏 差 提高 。 

colsample_bytree: 用 于 指定 每 个 基础 模型 所 需 的 采样 字段 比例 ， 默 认为 1， 表 示 使 用 原始 数 
据 的 所 有 字段 。 

colsample_bylevel: 用 于 指定 每 个 基础 模型 在 节点 分 割 时 所 需 的 采样 字段 比例 ， 默 认为 1， 表 
示 使 用 原始 数据 的 所 有 字段 。 


@ reg alpha: 用 于 指定 Ll 正则 项 的 系数 ， 默 认为 0。 
@ ”reg lambda: 用 于 指定 L2 正 则 项 的 系数 ， 默 认为 1。 


scale_pos_weight: 当 各 类 别 样本 的 比例 十 分 不 平衡 时 ， 通 过 设 定 该 参数 设 定 为 一 个 正 值 ， 可 
以 使 算法 更 快 收敛。 

base_score: 用 于 指定 所 有 样本 的 初始 化 预测 得 分 ， 默 认为 0.5。 

random_state: 用 于 指定 随机 数 生成 器 的 种 子 ， 默 认为 0， 表 示 使 用 默认 的 随机 数 生成 器 。 
seed: 同 random_state 参数 。 

missing: 用 于 指定 缺失 值 的 表示 方法 ， 默 认为 None， 表 示 NaN 即 为 默认 值 。 


本 节 的 应 用 实战 部 分 将 以 信用 卡其 诈 数据 为 例 ， 该 数据 集 来 源 于 Kaggle 网 站 ， 一 共 包含 
284 807 条 记录 和 25 个 变量 ， 其 中 因 变 量 Class 表示 用 户 在 交易 中 是 否 发 生 欺诈 行为 〈《1 表示 欺诈 
交易 , 0 表示 正常 交易 ) 。 由 于 数据 中 涉及 敏感 信息 ， 已 将 原始 数据 做 了 主 成 分 分 析 (PCA ) 处 理 ， 
一 共 包含 28 个 主 成 分 。 此 外 , 原始 数据 中 仅 包含 两 个 变量 没有 做 PCA 处 理 , 即 “Time” 和 “Amount”， 
分 别 表示 交易 时 间 间 隔 和 交易 金额 。 首 先 ， 需 要 探索 一 下 因 变 量 Class 中 各 类 别 的 比例 差异 ， 查 看 
是 否 存在 不 平衡 状态 ， 代 码 如 下 : 

# 读 入 数据 

creditcard = pd.read csv(r'C:\Users\Administrator\Desktop\creditcard.csv') 

# 为 确保 绘制 的 饼 图 为 圆 形 ， 需 执行 如 下 代码 

plt.axes(aspect = 'equal') 

# 统计 交易 是 否 为 欺诈 的 频数 


counts = creditcard.Class.value counts() 


# 绘制 饼 图 
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plt.pie (x = counts，# 绘图 数据 
labels=pd.Series (counts.index) .map({0: ' 正 常 ', 1: "欺诈 '}) ，# 添加 文字 标签 
autopct='g.2f%%" # 设置 百分比 的 格式 ， 这 里 保留 两 位 小 数 
) 

# 显示 图 形 

plt.show() 


见 图 14-7。 





14-7 是 否 欺诈 交易 的 比例 


如 图 14-7 所 示 ， 在 284 807 条 信用 卡 交易 中 ,欺诈 交 易 仅 占 0.17%， 两 个 类 别 的 比例 存在 严 
外 的 不 平衡 现象 。 对 于 这 样 的 数据 ， 如 果 直 接 拿 来 建 模 ， 效 果 一 定 会 非常 差 .因为 模型 的 准确 率 会 
偏向 于 多 数 类 别 的 样本 。 换 句 话说 ， 即 使 不 建 模 ， 对 于 这 样 的 二 元 问题 ， 正 确 猜测 某 条 交易 为 正常 
交易 的 概率 值 都 是 99.83%, 而 正确 猜测 交易 为 欺诈 的 概率 几乎 为 0。 试问 是 否 可 以 通过 建 模 手段 ， 
提高 欺诈 交易 的 预测 准确 率 ， 这 里 不 妨 使 用 XGBoost 算法 对 数据 建 模 。 建 模 之 前 ， 需 要 将 不 平衡 
数据 通过 SMOTE 算法 转换 为 相对 平衡 的 数据 ， 代 码 如 下 : 


# 导入 第 三 方 包 
from imblearn.over sampling import SMOTE 


Ee 





# 将 数据 拆 分 为 训练 集 和 测试 集 

# 删除 自 变量 中 的 Time 变量 

X = creditcard.drop(['Time'], axis = 1) 

y = creditcard.Class 

# 数据 拆 分 

XxX train,X test,y train,y test = model selection.train test split(X,y,test size = 0.3, 
random state = 1234) 


# 运用 SMOTE 算法 实现 训练 数据 集 的 平衡 

over_ samples = SMOTE(random state=1234) 

over samples X,over samples y = over samples.fit sample(X train, y train) 
# 重 抽样 前 的 类 别 比例 

print(y train.value counts()/len(y train)) 

# 重 抽 样 后 的 类 别 比 例 

print (pd.Series(over samples y) .value counts()/len(over samples y)) 


out: 

0 0.998249 

全 0.001751 

Name: Class, dtype: float64 
于 0.5 

0 0.5 
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dtype: float64 


如 上 代码 所 示 , 首先 将 数据 集 拆 分 为 训练 集 和 测试 集 , 并 运用 训练 数据 集 构建 XGBoost 模型 ， 
其 中 测试 数据 集 占 30% 的 比重 。 由 于 训练 数据 集中 因 变 量 Class 对 应 的 类 别 存 在 严重 的 不 平衡 ， 即 
打印 结果 中 欺诈 交易 占 0.175%、 正 常 交易 占 99.825%， 所 以 需要 使 用 SMOTE 算法 对 其 做 平衡 处 
理 。 如 上 结果 所 示 ， 经 SMOTE 算法 重 抽样 后 ， 两 个 类 别 的 比例 达到 平衡 。 接 下 来 ， 利 用 重 抽样 后 
的 数据 构建 XGBoost 模型 ， 代 码 如 下 : 

# 导入 第 三 方 包 


import xgboost 
import numpy as np 





# 构建 XGBoost 分 类 器 

xgboost = xgboost.XGBClassifier() 

# 使 用 重 抽样 后 的 数据 ， 对 其 建 模 

xgboost .fit (over_samples_X,over_ samples_y) 
# 将 模型 运用 到 测试 数据 集中 


resample pred = xgboost.predict (np.array(X_test)) 


# 返回 模型 的 预测 效果 
print (' 模 型 的 准确 率 为 : \n',metrics.accuracy score(ly test, resample pred)) 
print (' 模 型 的 评估 报告 \n',metrics.classification report(y_test, resample_pred)) 


out: 
模型 的 准确 率 为 : 
0.990145477102 
模型 的 评估 报告 : 
Precision recall fl-score support 
0 1.00 0.99 1.00 85302 
. 0.13 0.88 0.23 141 
avg / total 1.00 0.99 0.99 85443 


如 上 结果 所 示 ， 经 过 重 抽 样 之 后 计算 的 模型 在 测试 数据 集 上 的 表现 非常 优秀 ， 模 型 的 预测 准 
确 率 超过 99%， 而 且 模型 对 欺诈 交易 的 覆盖 率 高 达 88%〔 即 正确 预测 为 欺诈 的 交易 量 /实际 为 欺诈 
的 交易 量 ) ， 对 正常 交易 的 覆盖 率 高 达 99%。 如 上 的 模型 结果 是 基于 默认 参数 的 计算 ， 读 者 可 以 
进一步 利用 交叉 验证 方法 获得 更 佳 的 参数 组 合 ， 进 而 可 以 提升 模型 的 预测 效果 。 接 下 来 ， 可 以 运用 
ROC 曲线 验证 模型 在 测试 数据 集 上 的 表现 ， 代 码 如 下 : 


# 计算 欺诈 交易 的 概率 值 ， 用 于 生成 Roc 曲线 的 数据 

y_score = xgboost.predict proba(np.array(X test))[:,1] 
fpr, tpr,threshold = metrics.roc curvely test, y_score) 
# 计算 AUc 的 值 


roc auc = metrics.auc (fpr,tpr) 


# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 添加 边际 线 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 

plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 

# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = $0.2f)"' $% roc auc) 

# 添加 x 轴 与 y 轴 标签 
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plt.xlabel ('1-Specificity') 
plt.ylabel ('Sensitivity') 

# 显示 图 形 

plt.show() 


见 图 14-8。 














图 14-8 平衡 数据 XGBoost 算法 的 ROC 曲线 


如 图 14-8 所 示 ，ROC 曲线 下 的 面积 高 达 0.98， 接近 于 1， 说 明 XGBoost 算法 在 该 数据 集 上 的 
拟 合 效果 非常 优秀 。 为 了 体现 SMOTE 算法 在 非 平衡 数据 上 的 价值 ， 这 里 不 妨 利 用 XGBoost 算法 
直接 在 非 平衡 数据 上 重新 建 模 ， 并 比较 重 抽 样 前 后 模型 在 测试 数据 集 上 的 预测 效果 ， 代 码 如 下 : 


# 构建 XGBoost 分 类 器 

xgboost2 = xgboost.XGBClassifier() 
# 使 用 非 平衡 的 训练 数据 集 拟 合 模型 
xgboost2.fit(X train,y train) 

# 基于 拟 合 的 模型 对 测试 数据 集 进行 预测 
Pred2 = xgboost2.predict (X_ test) 


# 返回 模型 的 预测 效果 
print (' 模 型 的 准确 率 为 : \n',metrics.accuracy_scorel(y test, pred2)) 
print (' 模 型 的 评估 报告 ; \n',metrics.classification report(y_ test, pred2)) 


out: 
模型 的 准确 率 为 : 
0.999403110846 
模型 的 评估 报告 : 
precision recall fl-score support 
0 1.00 1.00 1.00 85302 
1 0.88 0.74 0.80 141 
avg / total 1.00 1.00 1.00 85443 


如 上 结果 所 示 ， 对 于 非 平衡 数据 而 言 ， 利 用 XGBoost 算法 对 其 建 模 ， 产 生 的 预测 准确 率 非常 
高 ， 几 乎 为 100%， 要 比 平衡 数据 构建 的 模型 所 得 的 准确 率 高 出 近 1%。 但 是 ， 由 于 数据 的 不 平衡 
性 ， 导 致 该 模型 预测 的 结果 是 有 偏 的 ， 对 正常 交易 的 预测 覆盖 率 为 100%， 而 对 欺诈 交易 的 预测 覆 
盖 率 不 足 75%。 再 对 比 平衡 数据 构建 的 模型 ， 虽 然 正常 交易 的 预测 覆盖 率 下 降 1%， 但 是 促使 欺诈 
交易 的 预测 覆盖 率 提升 了 近 15%， 这 样 的 提升 是 有 必要 的 ， 降 低 了 欺诈 交易 所 产生 的 损失 。 

同 理 ， 也 基于 非 平衡 数据 构造 的 模型 ， 绘 制 其 在 测试 数据 集 上 的 ROC 曲线 , 并 通过 比 对 AUC 
的 值 ， 比 对 前 后 两 个 模型 的 好 坏 ， 代 码 如 下 : 
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# 计算 炊 诈 交易 的 概率 值 ， 用 于 生成 Roc 曲线 的 数据 

Y_score = xgboost2.predict proba(X test)[:,1] 

fpr, tpr, threshold = metrics.roc curvel(ly test, y_score) 
# 计算 AUc 的 值 

roc auc = metrics.auc (fpr,tpr) 


# 绘制 面积 图 

plt.stackplot (fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black') 
# 

plt.plot (fpr, tpr, color='black', lw = 1) 

# 添加 对 角 线 

plt.plot ([0,1], [0,1], color = 'red', linestyle = '--') 
# 添加 文本 信息 

plt.text (0.5,0.3,'ROC curve (area = %0.2f)' % roc auc) 
# 添加 x 轴 与 y 轴 标签 

plt.xlabel ('1-Specificity') 

plt.ylabel ('Sensitivity') 

# 显示 图 形 

plt.show() 


见 图 14-9。 
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图 14-9 XGBoost 算 法 的 ROC 曲线 


如 图 14-9 所 示 ， 尽 管 AUC 的 值 也 是 非常 高 的 ， 但 相对 于 平衡 数据 所 构建 的 模型 ，AUC 值 要 
小 0.1， 进 而 验证 了 利用 SMOTE 算法 实现 数据 的 平衡 是 有 必要 的 。 通 过 平衡 数据 ， 可 以 获得 更 加 
稳定 和 更 具 泛 化 能 力 的 模型 。 


14.5 本章 小 结 


本 章 介绍 了 几 种 有 别 于 第 10 章 中 的 随机 森林 集成 算法 , 它们 分 别 是 提升 算法 AdaBoost、 梯度 
提升 算法 GBDT 和 升级 版 的 梯度 提升 算法 XGBoost， 内 容 中 包含 这 几 种 集成 算法 的 理论 思想 、 基 
础 模型 的 构建 过 程 以 及 相应 的 应 用 实战 。 此 外 ， 也 介绍 了 非 平衡 数据 的 处 理 技术 SMOTE 算法 ， 并 
通过 验证 发 现 ， 该 技术 可 以 增强 模型 的 稳定 性 和 泛 化 能 力 。 

AdaBoost 算法 在 解决 分 类 问题 时 ， 是 通过 改变 样本 点 的 权重 大 小 ， 并 将 各 个 基础 模型 按 权重 
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实现 线性 组 合 , 最终 得 到 拟 合 数据 的 提升 树 ; 在 解决 预测 性 问题 时 ,每 一 轮 基础 模型 都 是 拟 合 上 一 
轮 模型 所 形成 的 残 差 ， 最 终 将 各 个 基础 模型 的 预测 值 相 加 。 不 管 是 分 类 提升 树 还 是 回归 提升 树 ,都 
是 将 各 个 基础 模型 以 串联 形式 构成 最 终 的 提升 树 。 在 回归 提升 树 中 , 如 果 损 失 函 数 使 用 的 是 平方 损 
失 或 指数 损失 ,目标 函数 的 求解 会 相对 简单 ， 为 了 能 够 使 提升 树 适用 于 更 多 类 型 的 损失 函数 , 便 诞 
生 了 梯度 提升 树 (如 GBDT 算法 ) ， 即 利用 损失 函数 的 导 函 数 作为 残 差 的 近似 值 ， 方 便 了 运算 也 
提高 了 提升 树 的 灵活 性 。 不 管 是 AdaBoost 算法 还 是 GBDT 算法 ， 在 构建 目标 函数 时 都 没有 加 入 反 
映 模 型 复杂 度 的 正则 项 ， 而 XGBoost 算法 则 实现 了 正则 项 的 加 入 ， 进 而 可 以 防止 模型 的 过 拟 合 ， 
并 在 求解 最 优化 问题 时 利用 了 损失 函数 的 一 阶 导 和 二 阶 导 。 相 比 于 GBDT 算法 ，XGBoost 算法 具 
有 更 多 的 优势 ， 如 支持 并 行 计 算 、 支 持 线性 的 基础 模型 、 支持 建 模 字段 的 随机 选择 等 
































为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 : 
Python 模块 Python 函数 或 方法 函数 说 明 
绘制 饼 图 的 函数 

matplotlib 绘制 面积 图 的 函数 
| pot | 绘制 折线 图 的 函数 
[ex | 诬 加 文本 标签 的 函数 
读 取 电子 表格 和 csv 文件 数据 的 函数 
| dop | 删除 记录 和 字段 名 称 的 “方法 ” 

pandas 按 值 排序 的 “方法 ” 
| series | 构建 序列 对 象 的 函数 
基于 序列 值 的 频次 计算 “方法 ” 
[nw 基于 序列 值 的 映射 “方法 ” 
拆 分 数据 为 训练 集 和 测试 集 的 函数 
构建 AdaBoost 算法 的 “类 ” 
基于 “类 ”的 模型 拟 合 和 预测 
计算 模型 预测 准确 率 的 函数 

skleam 返回 模型 预测 效果 的 函数 
predict_proba 计算 正 例 概率 的 函数 
roc _ Curve 生成 用 于 绘制 ROC 曲线 数据 的 函数 
auc 计算 AUC 值 的 函数 
GridSearchCV 网 格 搜 索 法 实现 交叉 验证 的 “类 ” 
DecisionTreeClassifier 构建 决策 树 分 类 器 的 “类 ” 
GradientBoostingClassifier 构建 GBDT 算法 的 “类 ” 

imbleam SMOTE 构建 SMOTE 算法 的 “类 ” 

xgboost XGBClassifier 构建 XGBoost 算 法 的 “类 ” 
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前 面 几 章 内 容 都 是 关于 有 监督 的 数据 挖掘 算法 ， 第 7 章 介绍 的 线性 回归 模型 到 第 14 章 介绍 的 
GBDT 集成 模型 ， 在 建 模 过 程 中 都 有 一 个 共同 特点 ， 即 数据 集中 包含 了 已 知 的 因 变 量 y 值 。 但 在 有 
些 场景 下 ， 并 没有 给 定 的 y 值 ， 对 于 这 类 数据 的 建 模 ， 一 般 称 为 无 监督 的 数据 挖掘 算法 ， 最 为 典型 
的 当 属 聚 类 算法 。 

聚 类 算法 的 目的 就 是 依据 已 知 的 数据 ， 将 相似 度 高 的 样本 集中 到 各 自 的 簇 中 。 例 如 ， 借 助 于 
电 商 平台 用 户 的 历史 交易 数据 ， 将 其 划分 为 不 同 的 价值 等 级 (如 VIP、 高 价值 、 潜 在 价值 、 低 价值 
等 ) ; 依据 经 纬度 、 交 通 状 况 、 人 流量 等 数据 将 地 图 上 的 几 十 个 娱乐 场所 划分 到 不 同 的 区 块 ( 如 经 
济 型 、 交 通 便捷 型 、 安 全 型 等 ) ; 利用 中 国 各 城市 的 经 济 、 医 疗 等 数据 将 其 划分 为 几 种 不 同 的 贫 富 
等 级 〈 如 发 达 、 欠 发 达 、 贫 困 、 极 贫困 等 ) 。 

当然 ， 聚 类 算法 不 仅仅 可 以 将 数据 实现 分 割 ， 还 可 以 用 于 异常 点 的 监控 ， 所 谓 的 异常 点 就 是 
远离 任何 簇 的 样本 ， 而 这 些 样本 可 能 就 是 某 些 场景 下 的 关注 点 。 例 如 ,信用卡 交 易 中 的 异常 ， 当 用 
户 进行 频繁 的 奢侈 品 交易 时 可 能 意味 着 某 种 欺诈 行为 的 出 现 ; 社交 平台 中 的 单 击 异常 ， 当 某 个 链接 
频繁 地 点 入 却 又 迅速 地 跳出 ， 就 可 能 说 明 这 是 一 个 钓鱼 网 站 ; 电 商 平台 中 的 交易 异常 ,一 张 银行 卡 
被 用 于 上 百 个 用 户 ID 的 支付 , 并 且 这 些 交 易 订 单 的 送 货 地 址 都 在 某 个 相近 的 区 域 , 则 可 能 暗示 “ 黄 
牛 ”的 出 现 。 

在 数据 挖掘 领域 ， 能 够 实现 聚 类 的 算法 有 很 多 ， 包 括 Kmeans 聚 类 、K 中 心 聚 类 、 谱 系 聚 类 、 
EM 聚 类 算法 、 基 于 密度 的 聚 类 和 基于 网 格 的 聚 类 等 。 每 一 种 聚 类 算法 都 具有 各 自 的 优 缺 点 ， 如 有 
的 只 适合 小 样本 的 数据 集 ， 有 的 善于 发 现任 何 形状 的 簇 , 所 以 ,在 实际 应 用 中 可 以 尝试 多 种 聚 类 效 
果 ， 最终 得 出 理想 的 分 割 。 本 章 将 重点 学 习 有 关 Kmeans 的 聚 类 算法 ， 该 算法 利用 距离 远近 的 思想 
将 目标 数据 聚 为 指定 的 k 个 徐 ， 簇 内 样本 越 相似 ， 表 明 聚 类 效果 越 好 。 通 过 本 章 内 容 的 学 习 ， 读 者 





@ Kmeans 聚 类 的 思想 和 原理 ; 
”如何 利 用 数据 本 身 选 出 合理 的 上 个 簇 ; 
。 Kmeans 聚 类 的 应 用 实战 。 
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15.1 Kmeans 聚 类 


之 所 以 称 之 为 Kmeans， 是 因为 该 算法 可 以 将 数据 划分 为 指定 的 k 个 徐 ， 并 且 簇 的 中 心 点 由 各 
簇 样本 均值 计算 所 得 。 那 么 ，Kmeans 是 如 何 实现 数据 聚 类 的 呢 ? 接 下 来 介绍 该 算法 的 实现 思路 和 
原理 。 


15.1.1 Kmeans 的 思想 


该 聚 类 算法 的 思路 非常 通俗 易 懂 ， 就 是 不 断 地 计算 各 样本 点 与 秘 中 心 之 间 的 距离 ， 直 到 收敛 
为 止 ， 其 具体 的 步骤 如 下 : 


(1) 从 数据 中 随机 挑选 个 样本 点 作为 原始 的 簇 中 心 。 

(2) 计算 剩余 样本 与 簇 中 心 的 距离 ， 并 把 各 样本 标记 为 离 k 个 簇 中 心 最 近 的 类 别 。 
(3) 重新 计算 各 簇 中 样本 点 的 均值 ， 并 以 均值 作为 新 的 个 簇 中 心 。 

(4) 不 断 重复 (2) 和 (3) ， 直 到 簇 中 心 的 变化 趋 于 稳定 ， 形 成 最 终 的 个 簇 。 


也 许 上 面 的 4 个 步骤 还 不 足以 让 读者 明白 Kmeans 的 执行 过 程 ， 可 以 结合 图 15-1 更 进一步 地 
理解 其 背后 的 思想 。 



































15-1 Kmeans 聚 类 过 程 示意 图 


如 图 15-1 所 示 , 通过 9 个 子 图 对 Kmeans 聚 类 过 程 加 以 说 明 : 子 图 1， 从 原始 样本 中 随机 挑选 
两 个 数据 点 作为 初始 的 簇 中心 ， 即 子 图 中 的 两 个 五 角 星 ; 子 图 2， 将 其 余 样 本 点 与 这 两 个 五 角 星 分 
别 计算 距离 (距离 的 度量 可 选择 欧 氏 距离 、 曼 哈 顿 距离 等 ) ， 然 后 将 每 个 样本 点 划分 到 离 五 角 星 最 
近 的 徐 ， 即 子 图 中 按 虚线 隔 开 的 两 部 分 ， 子 图 3， 计 算 两 个 簇 内 样本 点 的 均值 ， 得 到 新 的 徐 中 心 ， 
即 子 图 中 的 五 角 星 ; 子 图 4， 根据 新 的 簇 中 心 ， 继 续 计 算 各 样本 与 五 角 星之 间 的 距离 ， 得 到 子 图 5 
的 划分 结果 和 子 图 6 中 新 的 簇 内 样本 均值 ， 以 此 类 推 ， 最 终 得 到 理想 的 聚 类 效果 ， 如 子 图 9 所 示 ， 
图 中 的 五 角 星 即 最 终 的 簇 中 心 点 。 

通过 图 15-1 的 解释 ，Kmeans 聚 类 算法 的 思想 还 是 比较 简单 的 ，Python 提供 了 实现 该 算法 的 
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模块 ， 它 就 是 sklearn 模块 ， 读 者 只 需 调 用 子 模块 cluster 中 的 Kmeans 类 即 可 。 下 面 针 对 该 “类 ” 
的 语法 和 参数 含义 做 如 下 解释 : 


KMeans(n_clusters=8, init='k-means++', n init=10, max iter=300, tol=0.0001, 


precompute distances='auto', verbose=0, random state=None, 
Copy_x*=True, n_ jobs=1, algorithm="'auto') 


@ _n_clusters: 用 于 指定 聚 类 的 往 数 。 
@ ”init; 用 于 指定 初始 的 往 中 心 设置 方法 ， 如 果 为 k-means++'， 则 表示 设置 的 初始 得 中 心 之 间 相 


距 较 远 ; 如 果 为 random', 则 表示 从 数据 集中 随机 挑选 k 个 样本 作为 初始 徐 中 心 ; 如 果 为 数组 ， 
则 表示 用 户 指定 具体 的 往 中 心 。 

n_init: 用 于 指定 Kmeans 算法 运行 的 次 数 ， 每 次 运行 时 都 会 选择 不 同 的 初始 簇 中 心 ， 目 的 是 
防止 算法 收敛 于 局 部 最 优 ， 默 认为 10。 


@ max iter: 用 于 指定 单 次 运行 的 迭代 次 数 ， 默 认为 300。 
日 tol: 用 于 指定 算法 收敛 的 阅 值 ， 默 认为 0.0001。 
® ”precompute_distances: bool 类 型 的 参数 ， 是 否 在 算法 运行 之 前 计算 样本 之 间 的 距离 ， 默 认为 


'auto， 表 示 当 样本 量 与 变量 个 数 的 乘积 大 于 1200 万 时 不 计算 样本 间距 离 。 
verbose: 通过 该 参数 设置 算法 返回 日 志 信息 的 频 度 ， 默 认为 0， 表 示 不 输出 日 志 信息 ; 如 果 
为 1， 就 表示 每 隔 一 段 时 间 返 回 一 次 日 志 信息 。 


erandom_state: 用 于 指定 随机 数 生成 器 的 种 子 。 
@ ”copy_x: bool 类 型 参数 ， 当 参数 precompute_distances 为 True 时 有 效 ， 如 果 该 参数 为 True， 


就 表示 提前 计算 距离 时 不 改变 原始 数据 ， 否 则 会 修改 原始 数据 。 

n_jobs: 用 于 指定 算法 运算 时 使 用 的 CPU 数量 ， 默 认为 1， 如果 为 -1， 就 表示 使 用 所 有 可 用 
的 CPU。 

algorithm: 用 于 指定 Kmeans 的 实现 算法 ， 可 以 选择 'auto' 'f0 册 和 'elkan'"， 默 认为 'auto'， 表 示 自 
动 根据 数据 特征 选择 运算 的 算法 。 


15.1.2 Kmeans 的 原理 


前 文 已 提 到 , 对 于 指定 的 k 个 簇 , 簇 内 样本 越 相似 , 聚 类 效果 越 好 , 可 以 根据 这 个 结论 为 Kmeans 


聚 类 算法 构造 目标 函数 。 该 目标 函数 的 思想 是 ， 所 有 簇 内 样本 的 离 差 平方 和 之 和 达到 最 小 。 这 样 的 
思想 理解 起 来 比较 简单 ， 即 如 果 某 个 簇 内 的 样本 很 相似 ， 则 簇 内 离 差 平方 和 会 非常 小 (可 以 理解 为 
方差 会 很 小 ) ， 对 于 每 个 簇 而 言 ， 就 是 保证 这 些 簇 的 离 差 平方 和 的 总 和 最 小 。 


读者 可 能 会 问 , 要 保证 离 差 平方 和 的 总 和 最 小 其 实 很 简单 ， 当 簇 的 个 数 与 样本 个 数 一 致 时 (每 


个 样本 代表 一 个 类 ) ， 就 可 以 得 到 最 小 值 0。 确 实 不 假 ， 簇 被 划分 得 越 细 ， 总 和 肯定 会 越 小 ， 但 这 
样 的 簇 不 一 定 是 合理 的 。 所谓 合理 , 就 是 随 着 簇 的 增加 ， 离 差 平方 和 之 和 趋 于 稳定 (波动 小 于 某 个 
给 定 的 阐 值 》， 这 样 就 回答 了 “直到 簇 中 心 的 变化 趋 于 稳定 ”这 个 问题 。 





所 以 ， 根 据 如 上 思想 ， 可 以 将 目标 函数 表示 为 : 


J(c1, cz …ck) = . Sh 动 


j=1 i 
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其 中 ，o 表 示 第 /个 簇 的 簇 中 心 ，xi 属 于 第 j 个 簇 的 样本 i，ny 表 示 第 个 簇 的 样本 总 量 。 对 于 该 
目标 函数 而 言 ，Gy 是 未 知 的 参数 ， 要 想 求 得 目标 函数 的 最 小 值 ， 得 先知 道 参 数 cy 的 值 。 由 于 目标 函 
数 /为 一 个 凸 函数 ， 因 此 可 以 通过 求 导 的 方式 获取 合理 的 参数 cj 的 值 。 

步骤 一 : 对 目标 函数 求 偏 导 


-DD 


j=1 i=1 =1 

由 于 仅 对 目标 函数 中 的 第 /个 簇 中 心 5 求 偏 导 , 因此 其 他 簇 的 离 差 平方 和 的 导数 均 为 0, 进而 只 
保留 第 /个 簇 的 离 差 平方 和 的 导 函 数 。 

步骤 二 : 令 导 函 数 为 0 








由 如 上 推导 的 结果 可 知 ， 只 有 当 簇 中 心 cj 为 簇 内 的 样本 均值 时 ， 目 标 函 数 才 会 达到 最 小 ， 获 得 
稳定 的 徐 。 有 意思 的 是 ， 推 导出 来 的 簇 中 心 正 好 与 Kmeans 聚 类 思想 中 的 样本 均值 相 吻合 。 

上 面 的 推导 都 是 基于 已 知 的 k 个 簇 运 算出 最 佳 的 簇 中 心 ， 如 果 聚 类 之 前 不 知道 该 聚 为 几 类 时 ， 
如 何 根据 数据 本 身 确定 合理 的 k 值 呢 ?” 当 然 这 也 是 Kmeans 聚 类 的 缺点 ， 因 为 其 需要 用 户 指定 该 算 
法 的 聚 类 个 数 。 下 一 节 将 探讨 几 种 常用 的 确定 k 值 的 方法 。 


15.2 最 佳 k 值 的 确定 





对 于 Kmeans 算法 来 说 ， 如 何 确定 簇 数 k 值 是 一 个 至 关 重 要 的 问题 ， 为 了 解决 这 个 难题 ， 通 常 
会 选用 探索 法 , 即 给 定 不 同 的 k 值 下 , 对 比 某 些 评估 指标 的 变动 情况 , 进而 选择 一 个 比较 合理 的 K 值 。 
本 节 将 介绍 非常 实用 的 三 种 评估 方法 ， 即 簇 内 离 差 平方 和 拐点 法 、 轮 廓 系数 法 和 间隔 统计 量 法 。 


15.2.1 ”拐点 法 


簇 内 离 差 平 方 和 拐点 法 的 思想 很 简单 ， 就 是 在 不 同 的 k 值 下 计算 簇 内 高 差 平方 和 ， 然 后 通过 可 
视 化 的 方法 找到 “拐点 ”所 对 应 的 k 值 。 正 如 前 文 所 介绍 的 Kmeans 聚 类 算法 的 目标 函数 /， 随 着 簇 
数量 的 增加 , 簇 中 的 样本 量 会 越 来 越 少 , 进而 导致 目标 函数 /的 值 也 会 越 来 越 小 。 通过 可 视 化 方法 ， 
重点 关注 的 是 斜率 的 变化 ， 当 和 斜率 由 大 突然 变 小 时 ,并 且 之 后 的 斜率 变化 缓慢 , 则 认为 突然 变化 的 
点 就 是 寻找 的 目标 点 ， 因 为 继续 随 着 簇 数 k 的 增加 ， 聚 类 效果 不 再 有 大 的 变化 。 

为 了 验证 这 个 方法 的 直观 性 ， 这 里 随机 生成 三 组 二 元 正 态 分 布 数据 ， 首 先 基 于 该 数据 绘制 散 
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点 图 ， 具 体 代 码 如 下 : 
# 导入 第 三 方 包 


import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn.cluster import KMeans 


# 随机 生成 三 组 二 元 正 态 分 布 随 机 数 

np.random. seed (1234) 

meanl = [0.5, 0.5] 

covl = [[0.3, 0], [0, 0.3]] 

x1, yl = np.random.multivariate normal (meanl, covl, 1000).T 


mean2 = [0, 8] 
gor ill OF (Oy YY 
x2, y2 = np.random.multivariate normal (mean2, cov2, 1000).T 


mean3 = [8, 4] 
cov3 = [[1.5, 0], [0, 1]] 
x3, y3 = np.random.multivariate normal (mean3, cov3, 1000).T 


# 绘制 三 组 数据 的 散 点 图 
plt.scatter (x1,y1) 
plt.scatter (x2,y2) 
plt.scatter (x3,y3) 
# 显示 图 形 
plt.show() 


见 图 15-2。 





图 15-2 生成 三 个 簇 的 样本 点 


如 图 15-2 所 示 ， 虚 拟 的 数据 呈现 三 个 徐 ， 接 下 来 基于 这 个 虚拟 数据 ， 使 用 拐点 法 ， 绘 制 簇 的 
个 数 与 总 的 簇 内 离 差 平方 和 之 间 的 折线 图 ， 确 定 该 聚 为 几 类 比较 合适 ， 具 体 代码 如 下 : 


# 构造 自 定义 函数 ， 用 于 绘制 不 同 k 值 和 对 应 总 的 簇 内 高 差 平 方 和 的 折线 图 
def k SSE(X, clusters): 

# 选择 连续 的 K 种 不 同 的 值 

K = range (1,clusters+1) 

# 构建 空 列表 用 于 存储 总 的 簇 内 高 差 平方 和 

TSSE = [] 
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见 图 15-3。 





15-3 ”拐点 法 选择 合理 的 k 值 


如 图 15-3 所 示 ， 当 簇 的 个 数 为 3 时 形成 了 一 个 明显 的 “拐点 ”， 因 为 k 值 从 1 到 3 时 ， 折 线 
的 斜率 都 比较 大 ， 但 是 k 值 为 4 时 斜率 突然 就 降低 了 很 多 ， 并 且 之 后 的 簇 对 应 的 斜率 都 变动 很 小 。 
所 以 ， 合 理 的 k 值 应 该 为 3， 与 虚拟 的 三 个 簇 数据 是 吻合 的 。 
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15.2.2 ”轮廓 系数 法 


该 方法 综合 考虑 了 簇 的 密集 性 与 分 散 性 两 个 信息 ， 如 果 数 据 集 被 分 割 为 理想 的 k 个 徐 ， 那么 对 

应 的 簇 内 样本 会 很 密集 ， 而 簇 间 样本 会 很 分 散 。 轮 廓 系数 的 计算 公式 可 以 表示 为 : 
b(i)—al) 

max(a(i),b(0)) 

其 中 ,a( 站 体现 了 簇 内 的 密集 性 ,代表 样本 i 与 同 簇 内 其 他 样本 点 距离 的 平均 值 ; b(i) 反 映 了 簇 
间 的 分 散 性 ， 它 的 计算 过 程 是 ， 样 本 i 与 其 他 非 同 簇 样本 点 距离 的 平均 值 ， 然 后 从 平均 值 中 挑选 出 
最 小 值 。 

通过 公式 可 知 , 当 S(i) 接 近 于 -1 时 , 说 明 样 本 ;分 配 的 不 合理 , 需要 将 其 分 配 到 其 他 簇 中 ; 当 S(i) 
近似 为 0 时， 说 明 样本 i 落 在 了 模糊 地 带 ， 即 徐 的 边界 处 ， 当 S(i) 近 似 为 1 时 ， 说 明 样 本 i 的 分 配 是 
合理 的 。 

为 了 进一步 理解 a(i) 和 b(i) 的 计算 含义 ， 读 者 可 以 参考 图 15-4。 





SCD = 





15-4 ”轮廓 系数 计算 的 示意 图 


如 图 15-4 所 示 ， 假 设 数据 集 被 拆 分 为 4 个 徐 ， 样 本 i 对 应 的 a(i) 值 就 是 所 有 Ci 中 其 他 样本 点 与 
样本 i 的 距离 平均 值 ， 样 本 i 对 应 的 b() 值 分 两 步 计算 ， 首 先 计 算 该 点 分 别 到 C。、Cs 和 C4 中 样本 点 的 
平均 距离 ， 然 后 将 三 个 平均 值 中 的 最 小 值 作为 bp(i) 的 度量 。 

上 面 计算 的 仅仅 是 样本 ;的 轮廓 系数 ， 最 终 需 要 对 所 有 点 的 轮廓 系数 求 平 均值 ， 得 到 的 结果 才 
是 对 应 k 个 簇 的 总 轮廓 系数 。 当 总 轮廓 系 数 小 于 0 时 ， 说 明 聚 类 效果 不 佳 ， 当 总 轮廓 系数 接近 于 1 
时 , 说 明 簇 内 样本 的 平均 距离 a 非常 小 , 而 簇 间 的 最 近 距 离 b 非 常 大 ， 进 而 表示 聚 类 效果 非常 理想 。 

上 面 的 计算 思想 虽然 挺 简单 ， 但 是 其 背后 的 计算 复杂 度 还 是 蛮 高 的 ， 当 样本 量 比较 多 时 ， 运 
行 时间 会 比较 长 。 有 关 轮 廓 系数 的 计算 ， 可 以 直接 调用 sklearn 子 模块 metrics 中 的 函数 ， 即 
silhouette_score。 需 要 注意 的 是 ， 该 函数 接受 的 聚 类 簇 数 必须 大 于 等 于 2。 下 面 基于 该 函数 重新 自 
定义 一 个 函数 ， 用 于 绘制 不 同 k 值 下 对 应 轮 廊 系 数 的 折线 图 ， 具 体 代码 如 下 : 

# 导入 第 三 方 模块 


from sklearn import metrics 

# 构造 自 定义 函数 

def k_silhouette (X，clusters) : 
K = range(2,clusters+1) 


# 构建 室 列 表 ， 用 于 存储 不 同 能 数 下 的 轮廓 系数 
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Sw 
for k in K: 
kmeans = KMeans(n_ clusters=k) 
kmeans .fit (X) 
labels = kmeans.labels_ 
# 调用 子 模块 metrics 中 的 silhouette_score 函数 ， 计 算 轮 廓 系数 


S.append(metrics.silhouette score(X, labels, metric='euclidean')) 


# 中 文 和 负 号 的 正常 显示 
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 
## 设置 绘图 风格 
plt.style.use('ggplot') 
# 绘制 K 的 个 数 与 轮廓 系数 的 关系 
plt.plot (K, S, 'b*-') 
plt.xlabel(' 徐 的 个 数 ') 
plt.ylabel(' 轮 廓 系数 ') 
# 显示 图 形 

plt.show() 


# 自 定义 函数 的 调用 
k_silhouette(X, 15) 


见 图 15-5。 


4 6 8 10 2 14 


锅 风 人数 
图 15-5 轮廓 系数 法 选择 合理 的 K 值 


如 图 15-5 所 示 ， 利 用 之 前 构造 的 虚拟 数据 ， 绘 制 了 不 同 k 值 下 对 应 的 轮廓 系数 图 ， 当 k 等 于 3 


时 ， 轮 廓 系数 最 大 ， 且 比较 接近 于 1， 说 明 应 该 把 虚拟 数据 聚 为 3 类 比较 合理 ， 同 样 与 原始 数据 的 
3 个 艇 是 吻合 的 。 





15.2.3 ”间隔 统计 量 ; 


2000 年 Hastie 等 人 提出 了 间隔 统计 量 法 (Gap Statistic 方法 ) 。 该 方法 可 以 适用 于 任何 聚 类 算 
法 ， 有 关 该 方法 的 定义 如 下 : 
Dx = > D2 (xi— zx = 2nx (xi — ux) 


XiECk xjECK 
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K 
Wi = Da 
k=1 
Gapn(k) = Ex(log(Wis)) — log(Wi) 

其 中 ，D 表 示 秘 内 样本 点 之 间 的 欧 氏 距离 ，ni 为 第 k 个 入 内 的 样本 量 ，jpw 为 第 k 个 徐 内 的 样本 
均值 ，Wi 为 Dk 的 标准 化 结果 ，Wi 为 各 参照 组 数据 集 的 Wi 向 量 ， 友 (log (Wi)) 为 所 有 参照 组 数据 
集 Wi 的 对 数 平均 值 ， 即 二 7&1log (Wis)。Gap Statistic 方法 就 是 通过 比较 参照 数据 集 的 期 望 
成 (log(W 坊 )) 和 实际 数据 集 的 log(Wx)， 找 到 使 log(Wx) 下 降 最 快 的 K 值 。 

下 降 最 快 的 度量 可 以 借助 于 下 方 的 不 等 式 ， 在 不 同 的 k 值 下 ， 首 次 满足 不 等 式 条 件 的 k 值 就 是 
最 佳 的 聚 类 个 数 。 判 断 标准 如 下 ; 

Gap(k)Gap(k 十 1) 一 sk 


2 
其 中 , sx = (1/8)5 (log(wi) ee Ex(10g Wis))) VTT17B, 代表 了 所 有 参照 数据 集 下 Wi 的 


无 偏 标准 差 。 接 下 来 ， 基 于 上 方 的 理论 知识 ， 构 造 自 定义 函数 ， 用 于 绘制 不 同 的 k 值 对 应 的 间隙 统 
计量 折线 图 ， 具 体 代码 如 下 : 
# 自 定义 函数 ， 计 算 艇 内 任意 两 样本 之 间 的 欧 氏 距离 Dk 


def short pair wise Dl(each cluster): 
mu = each cluster.mean(axis = 0) 
Dk = sum(sum((each cluster - mu)**2)) * 2.0 * each cluster.shape[0] 
return Dk 


# 自 定义 函数 ， 计 算 簇 内 的 wk 值 
def compute Wk (data, classfication result): 
Wk=0 
label set = set(classfication result) 
for label in label set: 
each cluster = data[classfication result == label, :] 
Wk = Wk + short pair wise D(each cluster)/(2.0*each cluster.shape[0]) 
return Wk 


# 自 定义 函数 ， 计 算 GAP 统计 量 
def gap_statistic(X, B=10, K=range(1,11), N init = 10): 
# 将 输入 数据 集 转换 为 数组 
X = np.array (X) 
# 生成 B 组 参照 数据 集 
shape = X.shape 
tops = X.max (axis=0) 
bots = X.min (axis=0) 
dists = np.matrix(np.diag (tops-bots)) 
rands = np.random.random sample(size=(B,shape[0], shape[1])) 
for i in range(B): 
rands[i,:,:] = rands[i,:,:]*diststbots 


# 自 定义 0 元素 的 数组 ， 用 于 存储 gaps、Wks 和 Wkbs 
gaps = np.zeros (len(K)) 

Wks = np.zeros(len (K)) 

Wkbs = np.zeros( (len(K),B)) 

# 循环 不 同 的 x 值 ， 计 算 各 簇 下 的 wk 值 
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for idxk, k in enumerate (K) : 
k means = KMeans(n clusters=k) 
k_means.fit (X) 
classfication result = k means.labels 
# 将 所 有 簇 内 的 wk 存储 起 来 


Wks[idxk] = compute Wk(X,classfication result) 


# 通过 循环 ， 计 算 每 一 个 参照 数据 集 下 的 各 簇 wk 值 
for i in range(B): 
Xb = rands[i,:,:] 
k_means.fit (Xb) 
classfication result b = k means.labels 
Wkbs [idxk,i] = compute Wk(Xb,classfication result b) 


# 计算 gaps、sd_ks、sk 和 gapDiff 

gaps = (np.log(Wkbs)) .mean(axis = 1) - np.log(Wks) 

sd ks = np.std(np.1og(Wkbs)，axis=1) 

sk = sd ks*np.sqrt (1+1.0/B) 

# 用 于 判别 最 佳 k 的 标准 ， 当 gapDiff 首次 为 正 时 ， 对 应 的 k 即 为 目标 值 
gapDiff = gaps[:-1] - gaps[1:] + sk[1:] 


# 中 文 和 负 号 的 正常 显示 

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 

# 设置 绘图 风格 

plt.style.use{('ggplot') 

# 绘制 gapDiff 的 条 形 图 

plt.bar (np.arange(len (gapDiff))+1, gapDiff, color = 'steelblue') 
plt.xlabel (' 艇 的 个 数 ') 

Plt.ylabel ('k 的 选择 标准 ') 


plt.show() 
# 自 定义 函数 的 调用 
gap_statistic (xX) 
见 图 15-6。 
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图 15-6 利用 间隙 统计 量 选择 合理 的 K 值 
如 图 15-6 所 示 ，x 轴 代表 了 不 同 的 簇 数 k，y 轴 代表 k 值 选择 的 判断 指标 gapDiff，gapDiff 首次 
出 现 正 值 时 对 应 的 k 为 3。 所以， 对 于 虚拟 的 数据 集 来 说 ， 将 其 划分 为 3 个 簇 是 比较 合理 的 ， 同 样 
与 预 设 的 簇 数 一 致 。 代 码 中 自 定义 了 3 个 函数 ， 分 别 用 于 计算 公式 中 的 De、Wie 和 Gapk， 虽 然 计算 
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逻辑 比较 简单 ， 但 是 涉及 的 循环 比较 多 ， 所 以 对 大 数据 集 而 言 ， 其 k 值 的 确定 会 比较 慢 。 
15.3 Kmeans 聚 类 的 应 用 


在 做 Kmeans 聚 类 时 需要 注意 两 点 ， 一 个 是 聚 类 前 必须 指定 具体 的 簇 数 k 值 ， 如 果 k 值 是 已 知 
的 ， 可 以 直接 调用 cluster 子 模块 中 的 Kmeans 类 ， 对 数据 集 进 行 分 割 ， 如 果 k 值 是 未 知 的 ， 可 以 根 
据 行业 经 验 或 前 面 介绍 的 三 种 方法 确定 合理 的 k 值 ， 另 一 个 是 对 原始 数据 集 做 必要 的 标准 化 处 理 ， 
由 于 Kmeans 的 思想 是 基于 点 之 间 的 距离 实现 “ 物 以 聚 类 ”的 ， 所 以 ， 如 果 原 始 数 据 集 存在 量 纲 上 
的 差异 ， 就 必须 对 其 进行 标准 化 的 预 处 理 ， 和 否则 可 以 不 用 标准 化 。 数 据 集 的 标准 化 处 理 可 以 借助 于 
sklearn 子 模块 preprocessing 中 的 scale 函数 或 minmax_scale 实现 ， 这 两 种 函数 的 标准 化 公式 如 下 : 





三 x—mean(x) . De X 一 min(x) 
Scale = 一介 Ge minmax_scale = x ty 


其 中 , mean(x) 为 变量 x 的 平均 值 , std(x) 为 变量 x 的 标准 差 , min(x) 为 变量 x 的 最 小 值 , max(x) 
为 变量 x 的 最 大 值 。 第 一 种 方法 会 将 变量 压缩 为 均值 为 0、 标 准 差 为 1 的 无 量 纲 数 据 ， 第 二 种 方法 
会 将 变量 压缩 为 [0,1] 之 间 的 无 量 纲 数据 。 

接 下 来 将 前 面 所 讲 的 理论 知识 应 用 到 实战 中 ， 分 别针 对 iris 数据 集 和 NBA 球员 数据 集 构造 已 
知 复数 与 未 知 马 数 的 Kmeans 聚 类 模型 ， 进 一 步 让 读者 理解 Kmeans 聚 类 的 操作 步骤 。 


15.3.1 _iris 数据 集 的 聚 类 


iris 数据 集 经 常 被 用 于 数据 挖掘 的 项 目 案例 中 ， 它 反映 了 3 种 意 尾 花 在 花 葛 长 度 、 宽 度 和 花 辨 
长 度 、 宽 度 之 间 的 差异 ， 一 共 包含 150 个 观测 ， 且 每 个 花 种 含有 50 个 样本 。 下 面 将 利用 数据 集中 
的 四 个 数值 型 变量 ， 对 该 数据 集 进 行 聚 类 ， 且 假设 已 知 需要 聚 为 3 类 的 情况 下 , 该 如 何 对 其 进行 聚 
类 操作 呢 ? 代 码 如 下 : 

# 读 取 iris 数据 集 

iris = pd.read csv(r'C:\Users\Administrator\Desktop\iris.csv') 


# 查看 数据 集 的 前 几 行 


iris.head() 


























见 表 15-1。 
表 15-1 iris 数据 集 的 前 5 行 预览 
[Sepal_Length| Sepal_Width [Petal_Length [Petal_Width| Species 
ofs1 |35 14 02 setosa 
1|49 |30 14 02 setosa 
2|47 |32 13 02 setosa 
3|46 |31 15 02 setosa 
4|50 |36 14 02 |setosa 














如 表 15-1 所 示 ， 数 据 集 的 前 四 个 变量 分 别 是 花 萝 的 长 度 、 宽 度 及 花瓣 的 长 度 、 宽 度 ， 它 们 之 
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间 没 有 量 纲 上 的 差异 ， 故 无 须 对 其 做 标准 化 处 理 ; 最 后 一 个 变量 为 营 尾 花 所 属 的 种 类 。 如 果 将 其 聚 
为 3 类， 可 设置 Kmeans 类 的 n_clusters 参数 为 3， 具 体 代 码 如 下 : 


# 提取 出 用 于 建 模 的 数据 集 X 

XxX = iris.drop (labels = 'Species', axis = 1) 
# 构建 kmeans 模型 

kmeans = KMeans(n clusters = 3) 

kmeans. fit (xX) 

# 聚 类 结果 标签 

X['cluster'] = kmeans.labels 

# 各 类 频数 统计 


X.cluster.value_counts () 


out: 


如 上 结果 所 示 , 通过 设 定 参数 n_clusters 为 3 就 可 以 非常 方便 地 得 到 三 个 徐 , 并 且 各 簇 样 本 量 
分 别 为 62、50 和 38。 为 了 直观 验证 聚 类 效果 ， 不 妨 绘制 花瓣 长 度 与 宽度 的 散 点 图 ， 对比 原始 数据 
的 三 类 和 建 模 后 的 三 类 差异 ， 代 码 如 下 : 

# 导入 第 三 方 模块 


import seaborn as sns 


# 三 个 入 的 簇 中 心 

centers = kmeans.cluster centers_ 

# 绘制 聚 类 效果 的 散 点 图 

sns.lmplot (x = 'Petal Length', y = 'Petal Width', hue = 'cluster', markers = ['^','s','o0'], 
data = XxX, fit reg = False, scatter kws = {'alpha':0.8}, legend out = False) 

plt.scatter (centers[:,2], centers[:,3], marker = '*', color = 'black', s = 130) 

plt.xlabel (' 花 瓣 长 度 ' ) 

plt.ylabel (' 花 辩 宽度 ') 

# 图 形 显示 

plt.show() 


# 增加 一 个 辅助 列 ， 将 不 同 的 花 种 映射 到 0, 1,2 三 种 值 ， 目 的 是 方便 后 面 图 形 的 对 比 

iris['Species map'] = iris.Species.map({'virginica':0,'setosa':l1,'versicolor':2}) 

# 绘制 原始 数据 三 个 类 别 的 散 点 图 

sns.lmplot (x = 'Petal Length', y = 'Petal Width', hue = "Species map', data = iris, 
markers = ['^','s','0'],fit reg = False, scatter kws = {'alpha':0.8}, 
legend out = False) 

plt.xlabel (' 花 辩 长 度 ' ) 

Plt.ylabel (' 花 辩 宽度 ') 

# 图 形 显示 

plt.show() 


见 图 15-7。 
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图 15-7 Kmeans 聚 类 效果 与 原始 类 别 的 对 比 
如 图 15-7 所 示 ， 左 图 为 聚 类 效果 的 散 点 图 ， 其 中 五 角 星 为 每 个 簇 的 簇 中 心 ; 右 图 为 原始 分 类 


的 散 点 图 。 从 图 中 可 知 ， 聚 类 算法 将 标记 为 1 的 所 有 花 种 聚 为 一 簇 ， 与 原始 数据 吻合 ， 对 于 标记 为 
0 和 2 的 花 种 ， 聚 类 算法 存在 一 些 错误 分 割 ， 但 绝 大 多 数 样本 的 聚 类 效果 还 是 与 原始 数据 比较 一 至 
的 。 

为 了 直观 对 比 三 个 簇 内 样本 之 间 的 差异 ， 使 用 雷达 图 对 四 个 维度 的 信息 进行 展现 ， 绘 图 所 使 
用 的 数据 为 簇 中 心 。 雷 达 图 的 绘制 需要 导入 pygal 模块 ， 需 要 读者 提前 在 Python 中 安装 该 模型 ， 
绘图 代码 如 下 : 

# 导入 第 三 方 模块 

import pygal 


# 调用 Radar 这 个 类 ， 并 设置 雷达 图 的 填充 及 数据 范围 

radar chart = pygal.Radar (fill = True) 

# 添加 雷达 图 各 项 点 的 名 称 

radar chart.x_labels = ['" 花 苯 长 度 '，' 花 昔 宽 度 '，' 花瓣 长 度 "，' 花瓣 宽度 ' ] 


# 绘制 三 个 雷达 图 区 域 ， 代 表 三 个 簇 中 心 的 指标 值 

radar_chart.add('C1l', centers[0]) 

radar chart.add('C2', centers[1]) 

radar chart.add('C3', centers[2]) 

# 保存 图 像 

radar chart.render to file('radar chart.svg') 

如 图 15-8 所 示 ， 对 于 C1 类 的 萝 尾 花 而 言 ， 其 花 葡 长 度 以 及 花瓣 长 度 与 宽度 都 是 最 大 的 ， 而 
C2 类 的 六 尾 花 ， 对 应 的 三 个 值 都 是 最 小 的 ，C3 类 的 高 尾 花 ， 三 个 指标 的 平均 值 恰好 均 落 在 Cl1 和 
C2 之 间 。 

需要 注意 的 是 ，pygal 模块 绘制 的 雷达 图 无 法 通过 plt.show 的 方式 进行 显示 ， 故 选择 svg 的 保 
存 格式 。 读 者 可 以 在 运行 完 绘图 程序 后 ,在 工作 空间 的 路 径 下 双击 该 文件 , 在 浏览 器 中 显示 雷达 图 。 
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15-8 ”基于 聚 类 结果 的 雷达 图 


15.3.2 ”NBA 球员 数据 集 的 聚 类 


ane 


如 上 的 案例 是 假设 研究 人 员 已 经 知道 数据 该 聚 为 几 类 时 , 可 以 直接 调用 Kmeans 类 完成 聚 类 工 
作 。 接 下 来 所 使 用 的 NBA 球员 数据 集 却 是 未 知 分 类 个 数 的 ， 对 于 这 样 的 数据 集 就 需要 通过 探索 方 


法 获知 理想 的 簇 数 k 值 ， 然 后 进行 聚 类 操作 。 


该 数据 集 来 自 于 虎 扑 体育 网 , 一 共 包含 286 名 球员 的 历史 投篮 记录 , 这 些 记 录 包 括 球 员 姓 名 、 
所 属 球 队 、 得 分 、 各 命中 率 等 信息 。 首 先 ， 预 览 一 下 该 数据 集 的 前 几 行 : 


# 读 取 球 员 数 据 


Players = pd.read csv(r'C:\Users\Administrator\Desktop\players.csv') 


players.head() 


见 表 15-2。 


表 15-2 NBA 球员 数据 的 前 5 行 预览 












































排名 | 球员 球 队 | 得 分 命中- 出手 “| 命中 率 | 命 中 -三 分 | 三 分 命中 率 | 命中 -罚球 | 罚球 命中 率 | 场次 | 上 场 时 间 
0| 1 “| 名所 -只 登 第 |31.9|960-21.10 |0454 |420-1070|0397 |ss0-990|0861 |30 |361 
1|2 “| 扬 尼 所 - 阿 德 括 昆 博 | 这 遍 |297| 10.90-19.90 |0.545 |0.50-170 |0271 750-980|0773 |28 |380 
2|3 | 勤 布衣 - 角 妇 煌 | 骑士 | 28.2 | 10.80-18.80|0.572 |2.10-5.10 |0.411 450.580|0775 |32 |373 
3|4 “| 晨 邯 - 库 里 勇士 | 26.3|8.30-17 60 |0.473 | 360-950 |0381 600650|0933 |23 |326 
4|4 ”| 凯 文 杜 关 等 | 各 士 | 263|970-1900 |0510 |250630 |0396 ”|450510|0879 ”|26 |348 








从 数据 集 来 看 ， 得 分 、 命 中 率 、 三 分 命中 率 、 罚 球 命中 率 
并 且 量 纲 也 不 一 致 ， 故 需要 对 数据 集 做 标准 化 处 理 。 这 里 不 妨 挑选 得 分 、 命 中 率 、 三 分 命中 率 和 罚 
球 命中 率 4 个 维度 用 于 球员 聚 类 的 依据 。 首先 绘制 球员 得 分 与 命中 率 之 间 的 散 点 图 , 便于 后 文 比 对 


聚 类 后 的 效果 ， 代 码 如 下 : 
# 绘制 得 分 与 命中 率 之 间 的 散 点 图 


sns.lmplot (x =' 得 分 '，y = ' 命 中 率 '，data = players, 


、 场 次 和 上 场 时 间 都 为 数值 型 变量 ， 


fit reg = False, scatter kws = {'alpha':0.8, 'color': 'steelblue'}) 


# 图 形 显示 
Plt.show() 
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见 图 15-9。 
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图 15-9 球员 得 分 与 命中 率 之 间 的 散 点 图 


如 图 15-9 所 示 ， 通 过 肉眼 ， 似 乎 无 法 直接 对 这 286 名 球员 进行 分 割 。 如 果 需 要 将 这 些 球员 聚 
类 的 话 ， 该 划 为 几 类 比较 合适 呢 ? 下 面 将 利用 前 文 介 绍 的 三 种 选择 K 值 的 方法 ， 对 该 数据 集 进行 测 
试 ， 代 码 如 下 : 

# 数据 标准 化 处 理 

X = preprocessing.minmax_scale (players[[' 得 分 ',' 罚球 命中 率 '，' 命中 率 '， "三 分 命中 率 '] ]) 

# 将 数组 转换 为 数据 框 

X = pd.DataFrame (X，columns=[' 得 分 ',' 罚球 命中 率 ',' 命 中 率 ',' 三 分 命中 率 ']) 


# 使 用 拐点 法 选择 最 佳 的 K 值 
k_SSE (xX, 15) 


见 图 15-10。 
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名 


艇 内 离 差 平方 和 之 和 
S 


2 4 6 8 10 2 1 
馈 的 个 数 
图 15-10 使 用 拐点 法 选择 合适 的 K 值 


如 图 15-10 所 示 ， 随 着 簇 数 k 的 增加 ， 簇 内 高 差 平方 和 的 总 和 在 不 断 减 小 ， 当 k 在 4 附近 时 ， 
折线 斜率 的 变动 就 不 是 很 大 了 ， 故 可 选 的 k 值 可 以 是 3、4 或 5。 为 了 进一步 确定 合理 的 K 值 ， 再 参 
考 轮廓 系数 和 间隙 统计 量 的 结果 ， 代 码 如 下 : 
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# 调用 自 定义 函数 ， 使 用 轮廓 系数 选择 最 佳 的 K 值 
k_silhouette(X，15) 

# 调 用 自 定义 函数 ， 使 用 间隙 统计 量 选择 最 佳 的 K 值 
gap_statistic(X，B = 20, K=range(1, 16)) 


见 图 15-11。 
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图 15-11 使 用 轮廓 系数 法 和 间隙 统计 量 选择 合适 的 K 值 


如 图 15-11 所 示 ， 左 图 为 轮廓 系数 图 ， 右 图 为 Gap Statistic 图 。 对 于 左 图 而 言 ， 当 k 值 为 2 时 
对 应 的 轮廓 系数 最 大 ， 在 右 图 中 ， 纵 坐标 首次 为 正 时 所 对 应 的 k 值 为 3。 故 综合 考虑 上 面 的 三 种 探 
索 方 法 ， 将 最 佳 的 聚 类 个 数 k 确 定 为 3。 接 下 来 基于 这 个 k 值 ， 对 NBA 球员 数据 集 进 行 聚 类 ， 然 后 
基于 分 组 好 的 数据 ， 重 新 绘制 球员 得 分 与 命中 率 之 间 的 散 点 图 ， 详 细 代 码 如 下 : 

# 将 球员 数据 集聚 为 3 类 


kmeans = KMeans(n clusters = 3) 

kmeans.fit (X) 

# 将 聚 类 结果 标签 插入 到 数据 集 players 中 

Players['cluster'] = kmeans.labels_ 

# 构建 空 列表 ， 用 于 存储 三 个 徐 的 簇 中 心 

centers = [] 

for i in players.cluster.unique(): 

centers.append(players.ix[players.cluster == i,[' 得 分 ', ' 罚球 命中 率 ',' 命 中 率 ',' 三 分 命中 率 

']].mean()) 

# 将 列表 转换 为 数组 ， 便 于 后 面 的 索引 取 数 


centers = np.array (centers) 





10 了 14 


# 绘制 散 点 图 

sns.lmplot (x = ' 得 分 '，y = ' 命 中 率 ',，hue = 'cluster', data = players, markers = ['^','s','o'], 
fit reg = False, scatter kws = {'alpha':0.8}, legend = False) 

# 添加 簇 中 心 

plt.scatter (centers[:,0], centers[:,2], c='k', marker = '*', s = 180) 

plt.xlabel (' 得 分 ') 

Plt.ylabel (' 命 中 率 ') 

# 图 形 显示 

plt.show() 


见 图 15-12。 
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图 15-12 Kmeans 聚 类 效果 


如 图 15-12 所 示 ， 三 类 散 点 图 看 上 去 很 有 规律 ,其 中 五 角 星 代表 各 个 簇 的 中 心 点 。 对比 正方 形 
和 圆 形 的 点 ， 它 们 之 间 的 差异 主要 体现 在 命中 率 上 ， 正 方形 所 代表 的 球员 属于 低 得 分 低 命中 率 型 ， 
命中 率 普遍 在 50% 以 下 ; 圆 形 所 代表 的 球员 属于 低 得 分 高 命中 率 型 。 再 对 比 正方 形 和 三 角形 的 点 ， 
它们 的 差异 体现 在 得 分 上 , 三 角形 所 代表 的 球员 属于 高 得 分 低 命中 率 型 ， 当 然 ,从 图 中 也 能 发 现 几 
个 强悍 的 球员 ， 即 高 得 分 高 命中 率 (如 图 5-12 中 鸭 出 的 三 个 点 ) 。 
需要 注意 的 是 ， 由 于 对 原始 数据 做 了 标准 化 处 理 ， 因 此 图 中 的 簇 中 心 不 能 够 直接 使 用 
cluster_centers 方法 获得 ， 因 为 它 返回 的 是 原始 数据 标准 化 后 的 中 心 。 故 在 代码 中 通过 for 循环 重 
新 找 出 了 原始 数据 下 的 簇 中心 ， 并 将 其 以 五 角 星 的 标记 添加 到 散 点 图 中 。 

最 后 看 看 三 类 球员 的 雷达 图 , 比 对 四 个 指标 上 的 差异 。 由 于 四 个 维度 间 存 在 量 纲 上 的 不 一 致 ， 
故 需要 使 用 标准 化 后 的 中 心 点 绘制 雷达 图 ， 代 码 如 下 : 

# 调用 模型 计算 出 来 的 簇 中 心 

centers std = kmeans.cluster centers_ 

# 设置 填充 型 雷达 图 

radar chart = pygal.Radar (fill = True) 


# 添加 雷达 图 各 顶点 的 名 称 
radar_chart.x_labels = [' 得 分 ', ' 罚球 命中 率 ', ' 命 中 率 ', ' 三 分 命中 率 '] 








# 绘制 雷达 图 代表 三 个 簇 中 心 的 指标 值 

radar_chart .add('C1'，centers_std[0]) 
radar_chart.add('C2'，centers_std[1]) 
radar_chart.add('C3'，centers_std[2]) 

# 保存 图 像 

radar chart.render to _ file('radar chart.svg') 


见 图 15-13。 
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15-13 ”基于 聚 类 结果 的 球员 雷达 图 


如 图 15-13 所 示 ， 三 个 群体 的 球员 在 各 个 维度 上 还 是 存在 差异 的 ， 以 C2 和 C3 举例 ， 他 们 的 


平均 得 分 并 没有 显著 差异 ， 但 是 C3 的 命中 率 却 比 C2 高 很 多 ， 再 从 平均 的 罚球 命中 率 和 三 分 命中 
率 来 看 ，C2 类 的 球员 要 普遍 比 C3 类 球员 强 一 些 。 


15.4 Kmeans 聚 类 的 注意 事项 


前 面 通过 两 个 案例 详细 介绍 了 有 关 Kmeans 聚 类 的 应 用 实战 , 虽然 操作 起 来 都 非常 简单 , 但 是 


还 有 一 些 重要 的 细节 需要 强调 : 


日 如 果 用 于 聚 类 的 数据 存在 量 纲 上 的 差异 ， 就 必须 对 其 做 标签 化 处 理 。 
日 ”如 果 数据 集中 含有 离散 型 的 字符 变量 ， 就 需要 对 该 变量 做 预 处 理 ， 如 设置 为 哑 变 量 或 转换 成 


数值 化 的 因子 。 
对 于 未 知 聚 类 个 数 的 数据 集 而 言 ， 不 能 随意 拍 脑 袋 确定 往 数 ， 而 应 该 使 用 探索 方法 寻找 最 佳 
的 大 值 。 


15.5 “本 闪 小 结 


本 章 首次 介绍 了 有 关 无 监督 的 聚 类 算法 一 一 Kmeans 聚 类 ， 并 详细 讲述 了 相关 的 理论 知识 与 应 


用 实战 ， 内 容 包含 Kmeans 聚 类 的 思想 、 原 理 以 及 几 种 常见 的 k 值 确定 方法 。 虽 然 Kmeans 聚 类 算 
法 非常 强大 和 灵活 , 但 是 它 还 是 存在 缺点 的 。 例如， 该 算法 对 异常 点 非常 敏感 ， 因 为 中 心 点 是 通过 
样本 均值 确定 的 ;该 算法 不 适合 发 现 非 球 形 的 簇 , 因为 它 是 基于 距离 的 方式 判断 样本 之 间 的 相似 度 。 
通过 本 章 内 容 的 学 习 , 读者 可 以 掌握 有 关 Kmeans 聚 类 的 相关 知识 点 ， 进 而 可 以 将 其 应 用 到 实际 的 





工作 中 ， 解 决 非 监督 型 的 数据 问题 。 
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为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 : 
Python 模块 Python 函数 或 方法 函数 说 明 









































numpy multivariate_normal 生成 多 元 正 态 随机 数 的 函数 
Kmeans 构造 Kmeans 聚 类 算法 的 “类 ” 
fit 基于 “类 ”的 模型 拟 合 “方法 ” 
labels_ 返回 聚 类 结果 的 簇 标签 
sklearn cluster centers_ 返回 聚 类 结果 的 簇 中 心 
silhouette score 计算 轮廓 系数 的 函数 
scale 数据 标准 化 的 函数 : (x 一 mean(x))/std(x) 
minmax_scale 数据 标准 化 的 函数 : 
(x —min(x))/(max(x) — min(x)) 
seabom Implot 绘制 分 组 散 点 的 函数 
matplotlib scatter 绘制 散 点 图 的 函数 
al Radar 绘制 雷达 图 的 “类 ” 





DBSCAN 与 层次 聚 类 分 析 


前 一 章 介绍 了 有 关 Kmeans 聚 类 算法 的 理论 和 实战 , 也 提 到 了 该 算法 的 两 个 致命 缺点 , 一 是 
类 效果 容易 受到 异常 样本 点 的 影响 ; 二 是 该 算法 无 法 准确 地 将 非 球形 样本 进行 合理 的 聚 类 。 为 了 弥 
补 Kmeans 算法 的 两 方面 缺点 ， 本 章 将 介绍 另 一 种 聚 类 算法 ， 即 基于 密度 的 聚 类 DBSCAN 
(Density-Based Special Clustering of Applications with Noise) ，“ 密 度 ” 可 以 理解 为 样本 点 的 紧密 
程度 ,而 紧密 度 的 衡量 则 需要 使 用 半径 和 最 小 样本 量 进行 评估 ， 如 果 在 指定 的 半径 领域 内 ,实际 样 
本 量 超过 给 定 的 最 小 样本 量 阔 值 ， 则 认为 是 密度 高 的 对 象 。DBSCAN 密度 聚 类 算法 可 以 非常 方便 
地 发 现 样本 集中 的 异常 点 ， 故 通常 可 以 使 用 该 算法 实现 异常 点 的 检测 。 

同时 ， 也 会 介绍 层次 聚 类 算法 ， 该 算法 比较 适合 小 样本 的 聚 类 ， 它 是 通过 计算 各 个 簇 内 样本 
点 之 间 的 相似 度 , 进而 构建 一 棵 有 层次 的 嵌 套 聚 类 树 。 该 算法 仍然 不 适合 非 球形 样本 的 聚 类 ， 但 它 
与 Kmeans 算法 类 似 ,可 以 通过 人 为 设 定 聚 类 个 数 实现 样本 点 的 聚合 ， 相 比 于 密度 聚 类 来 说 ， 似 乎 
会 方便 很 多 。 

通过 本 章 内 容 的 学 习 ， 读 者 将 会 掌握 如 下 几 个 方面 的 知识 点 : 
密度 聚 类 所 涉及 的 几 个 概念 ; 
密度 聚 类 的 实现 步骤 ; 
密度 聚 类 与 Kmeans 聚 类 的 比较 ; 
层次 聚 类 的 思想 与 步骤 ; 
三 种 不 同 的 层次 聚 类 方法 ; 
密度 聚 类 与 层次 聚 类 的 应 用 实战 。 


16.1 ”密度 聚 类 简介 


如 前 文 所 说 , 密度 聚 类 算法 可 以 发 现任 何 形状 的 样本 簇 , 而 且 该 算法 具有 很 强 的 抗 噪声 能 力 。 
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算法 具有 这 些 优点 的 背后 是 需要 用 户 设 定 合理 的 半径 e 和 对 应 领域 内 最 少 的 样本 数量 MinPts, 在 学 
习 密 度 聚 类 之 前 ， 介 绍 几 个 与 密度 聚 类 紧密 相关 的 概念 。 


16.1.1 


密度 聚 类 相关 的 概念 


e@ 点 的 g 领 域 : 在 某 点 p 处 ， 给 定 其 半径 eg 后 ， 所 得 到 的 覆盖 区 域 。 
@ 核心 对 象 : 对 于 给 定 的 最 少 样本 量 MinPts 而 言 ， 如 果菜 点 p 的 e 领 域内 至 少 包 含 MinPts 个 样 


本 点 ， 则 点 p 就 为 核心 对 象 。 


e 直接 密度 可 达 : 假设 点 p 为 核心 对 象 ， 且 在 点 p 的 g 领 域内 存在 点 qg， 则 从 点 p 出 发 到 点 q 是 直接 
密度 可 达 的 。 

e ”密度 可 达 : 假设 存在 一 系列 的 对 象 链 p1,p2,… ,pn, 如 果 pi 是 关于 半径 e 和 最 少 样本 点 MinPts 的 
直接 密度 可 达 piy1 (i = 1,2,…,n)， 则 pi 密度 可 达 p, 。 

ee ”密度 相连 : 假设 点 0 为 核心 对 象 ， 从 点 0 出 发 得 到 两 个 密度 可 达 点 p 和 点 g， 则 称 点 p 和 点 9 是 密 
度 相连 的 。 

ee 聚 类 的 签 : 答 包 含 了 最 大 的 密度 相连 所 构成 的 样本 点 。 

@ 边界 点 : 假设 点 p 为 核心 对 象 , 在 其 领域 内 包含 了 点 b, 如果 点 为 非 核心 对 象 , 则 称 其 为 点 p 的 
边界 点 。 

e 异常 点 : 不 属于 任何 狂 的 样本 点 。 


在 密度 聚 类 过 程 中 会 不 断 地 使 用 上 面 的 几 个 概念 ， 为 了 使 读者 能 够 清晰 地 理解 这 几 个 概念 之 
间 的 区 别 ， 可 以 参考 图 16-1。 





图 16-1 密度 聚 类 概念 解释 1 


如 图 16-1 所 示 ， 如 果 e 为 3、MinPts 为 7， 则 点 p 为 核心 对 象 ( 因 为 在 其 领域 内 至 少 包含 了 7 
个 样本 点 ) ; 点 p 为 非 核 心 对 象 ， 点 m 为 点 p 的 直接 密度 可 达 〔 因 为 它 在 点 p 的 se 领 域内 ) 。 
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16-2 ”密度 聚 类 概念 解释 2 


如 图 16-2 所 示 ， 如 果 e 为 3、MinPts 为 7， 则 点 p1、p2c 和 ps 为 核心 对 象 ， 点 pa 为 非 核 心 对 象 。 
点 pi 直接 密度 可 达 点 ps、 点 ps 直接 密度 可 达 点 pa、 点 ps 直接 密度 可 达 点 ps, 所 以 点 pi 密度 可 达 点 ps。 
点 pa 为 核心 点 pa 的 边界 点 。 

如 图 16-3 所 示 ， 如 果 e 为 3、MinPts 为 7， 则 点 oVDpi 和 9 为 核心 对 象 , 点 pz 和 qz 为 非 核心 对 象 。 
由 于 点 o 密 度 可 达 点 pz， 并 且 点 o 密 度 可 达 点 qz， 则 称 点 pz 和 点 qz? 是 密度 相连 的 , 如果 点 ps 和 点 qz 是 
最 大 的 密度 相连 ， 则 图 中 的 所 有 样本 点 构成 一 个 徐 ;， 由 于 点 N 不 属于 图 中 呈现 的 徐 ， 故 将 其 判断 为 


异常 点 。 





图 16-3 密度 聚 类 概念 解释 3 


16.1.2 ”密度 聚 类 的 步骤 


在 了 解 上 述 几 个 概念 含义 之 后 ， 再 来 掌握 密度 聚 类 的 具体 操作 步骤 会 相对 轻松 一 些 。 密 度 聚 
类 的 过 程 有 点 像 “ 贪 吃 蛇 ”， 从 某 个 点 出 发 ， 不 停 地 向 外 扩张 ， 直 到 获得 一 个 最 大 的 密度 相连 ， 进 
而 形成 一 个 样本 簇 。 为 了 使 读者 理解 DBSCAN 的 聚 类 过 程 ， 将 其 执行 步骤 详细 地 写 在 下 方 : 


(1) 为 密度 聚 类 算法 设置 一 个 合理 的 半径 e 以 及 e 领 域内 所 包含 的 最 少 样本 量 MinPts。 
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(2) 从 数据 集中 随机 挑选 一 个 样本 点 p， 检 验 其 在 e 领 域内 是 否 包含 指定 的 最 少 样本 量 ， 如 果 
包含 就 将 其 定性 为 核心 对 象 ， 并 构成 一 个 簇 C; 否则 ， 重 新 挑选 一 个 样本 点 。 

(3) 对 于 核心 对 象 p 所 覆盖 的 其 他 样本 点 qg， 如 果 点 q 对 应 的 e 领 域内 仍然 包含 最 少 样本 量 
MinPts， 就 将 其 覆盖 的 样本 点 统统 归于 簇 C 。 

(4) 重复 步骤 (3) ， 将 最 大 的 密度 相连 所 包含 的 样本 点 聚 为 一 类 ， 形 成 一 个 大 簇 。 

(5) 完成 步骤 (4) 后 ， 重 新 回 到 步骤 (2) ， 并 重复 步骤 (3) 和 (4) ， 直 到 没有 新 的 样本 
点 可 以 生成 新 徐 时 算法 结束 。 


如 上 步骤 中 的 文字 可 能 理解 起 来 不 够 形象 ， 下 面 结合 图 形 的 方式 来 描述 密度 聚 类 的 具体 过 程 。 
如 图 16-4 所 示 ， 如 果 密 度 聚 类 算法 中 的 半径 se 为 1、 最 少 样本 量 MinPts 为 4， 假 设 初始 选择 的 样本 
点 为 G1， 则 在 其 对 应 的 s 领 域内 一 共 包含 6 个 样本 点 , 故 点 G1 为 核心 对 象 , 同时 点 Pi 到 ps 都 是 点 C: 直 
接 密 度 可 达 的 。 继 续 以 点 pi 至 ps 为 中 心 ， 计 算 各 自 e 领 域内 的 最 少 样本 量 ， 发 现 它们 仍然 为 核心 对 
象 。 再 以 点 ps 所 覆盖 的 e 领 域 为 例 ， 绘制 点 pe 的 se 领域 ,发现 其 不 满足 最 小 样本 量 为 4 的 条 件 ， 故 点 
pe 不 属于 核心 对 象 。 从 图 可 知 ， 以 点 G1 为 核心 的 点 ， 都 可 以 密度 可 达 簇 中 的 所 有 点 ， 故 这 些 点 之 间 
也 是 密度 相连 的 。 以 此 类 推 ， 不 断 地 向 外 “ 扩 长 ”， 直 到 获得 最 大 的 密度 相连 ， 便 形成 最 终 的 一 个 
簇 。 同 理 ， 再 以 被 重新 选择 的 样本 点 Cz 为 例 ， 利 用 “ 贪 吃 蛇 ”的 思路 不 停 地 迁 代 ， 寻 找 其 他 的 核心 
对 象 ， 直 到 能 够 构成 簇 的 最 大 密度 相连 。 从 图 中 的 结果 来 看 ,通过 密度 聚 类 算法 ,会 将 样本 点 聚 为 
两 个 簇 ， 并 且 点 N 为 离 群 点 ， 因 为 它 不 属于 任何 一 个 簇 。 











16-4 ”密度 聚 类 过 程 的 示意 图 


在 Python 中 可 以 非常 方便 地 实现 密度 聚 类 算法 的 落地 , 读者 只 需要 调用 sklearn 子 模块 cluster 
中 的 DBSCAN 类 就 可 以 了 ， 关 于 该 “类 ”的 语法 和 参数 含义 如 下 : 


cluster.DBSCAN (eps=0.5, min samples=5, metric='euclidean', metric params=None, 
algorithm='auto', leaf size=30, p=None, n jobs=1) 


eps: 用 于 设置 密度 聚 类 中 的 e 领 域 ， 即 半径 ， 默 认为 0.5。 
min_samples: 用 于 设置 s 领 域内 最 少 的 样本 量 ， 默 认为 5。 
metric: 用 于 指定 计算 点 之 间距 离 的 方法 ， 默 认为 欧 氏 距离 。 
metric params: 用 于 指定 metric 所 对 应 的 其 他 参数 值 。 
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(2) 从 数据 集中 随机 挑选 一 个 样本 点 p， 检 验 其 在 e 领 域内 是 否 包含 指定 的 最 少 样本 量 ， 如 果 
包含 就 将 其 定性 为 核心 对 象 ， 并 构成 一 个 簇 C; 否则 ， 重 新 挑选 一 个 样本 点 。 

(3) 对 于 核心 对 象 p 所 覆盖 的 其 他 样本 点 qg， 如 果 点 q 对 应 的 e 领 域内 仍然 包含 最 少 样本 量 
MinPts， 就 将 其 覆盖 的 样本 点 统统 归于 簇 C 。 

(4) 重复 步骤 (3) ， 将 最 大 的 密度 相连 所 包含 的 样本 点 聚 为 一 类 ， 形 成 一 个 大 簇 。 

(5) 完成 步骤 (4) 后 ， 重 新 回 到 步骤 (2) ， 并 重复 步骤 (3) 和 (4) ， 直 到 没有 新 的 样本 
点 可 以 生成 新 徐 时 算法 结束 。 


如 上 步骤 中 的 文字 可 能 理解 起 来 不 够 形象 ， 下 面 结合 图 形 的 方式 来 描述 密度 聚 类 的 具体 过 程 。 
如 图 16-4 所 示 ， 如 果 密 度 聚 类 算法 中 的 半径 se 为 1、 最 少 样本 量 MinPts 为 4， 假 设 初始 选择 的 样本 
点 为 G1， 则 在 其 对 应 的 s 领 域内 一 共 包含 6 个 样本 点 , 故 点 G1 为 核心 对 象 , 同时 点 Pi 到 ps 都 是 点 C: 直 
接 密 度 可 达 的 。 继 续 以 点 pi 至 ps 为 中 心 ， 计 算 各 自 e 领 域内 的 最 少 样本 量 ， 发 现 它们 仍然 为 核心 对 
象 。 再 以 点 ps 所 覆盖 的 e 领 域 为 例 ， 绘制 点 pe 的 se 领域 ,发现 其 不 满足 最 小 样本 量 为 4 的 条 件 ， 故 点 
pe 不 属于 核心 对 象 。 从 图 可 知 ， 以 点 G1 为 核心 的 点 ， 都 可 以 密度 可 达 簇 中 的 所 有 点 ， 故 这 些 点 之 间 
也 是 密度 相连 的 。 以 此 类 推 ， 不 断 地 向 外 “ 扩 长 ”， 直 到 获得 最 大 的 密度 相连 ， 便 形成 最 终 的 一 个 
簇 。 同 理 ， 再 以 被 重新 选择 的 样本 点 Cz 为 例 ， 利 用 “ 贪 吃 蛇 ”的 思路 不 停 地 迁 代 ， 寻 找 其 他 的 核心 
对 象 ， 直 到 能 够 构成 簇 的 最 大 密度 相连 。 从 图 中 的 结果 来 看 ,通过 密度 聚 类 算法 ,会 将 样本 点 聚 为 
两 个 簇 ， 并 且 点 N 为 离 群 点 ， 因 为 它 不 属于 任何 一 个 簇 。 
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cluster.DBSCAN (eps=0.5, min samples=5, metric='euclidean', metric params=None, 
algorithm='auto', leaf size=30, p=None, n jobs=1) 


eps: 用 于 设置 密度 聚 类 中 的 e 领 域 ， 即 半径 ， 默 认为 0.5。 
min_samples: 用 于 设置 s 领 域内 最 少 的 样本 量 ， 默 认为 5。 
metric: 用 于 指定 计算 点 之 间距 离 的 方法 ， 默 认为 欧 氏 距离 。 
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(2) 从 数据 集中 随机 挑选 一 个 样本 点 p， 检 验 其 在 e 领 域内 是 否 包含 指定 的 最 少 样本 量 ， 如 果 
包含 就 将 其 定性 为 核心 对 象 ， 并 构成 一 个 簇 C; 否则 ， 重 新 挑选 一 个 样本 点 。 

(3) 对 于 核心 对 象 p 所 覆盖 的 其 他 样本 点 qg， 如 果 点 q 对 应 的 e 领 域内 仍然 包含 最 少 样本 量 
MinPts， 就 将 其 覆盖 的 样本 点 统统 归于 簇 C 。 

(4) 重复 步骤 (3) ， 将 最 大 的 密度 相连 所 包含 的 样本 点 聚 为 一 类 ， 形 成 一 个 大 簇 。 

(5) 完成 步骤 (4) 后 ， 重 新 回 到 步骤 (2) ， 并 重复 步骤 (3) 和 (4) ， 直 到 没有 新 的 样本 
点 可 以 生成 新 徐 时 算法 结束 。 


如 上 步骤 中 的 文字 可 能 理解 起 来 不 够 形象 ， 下 面 结合 图 形 的 方式 来 描述 密度 聚 类 的 具体 过 程 。 
如 图 16-4 所 示 ， 如 果 密 度 聚 类 算法 中 的 半径 se 为 1、 最 少 样本 量 MinPts 为 4， 假 设 初始 选择 的 样本 
点 为 G1， 则 在 其 对 应 的 s 领 域内 一 共 包含 6 个 样本 点 , 故 点 G1 为 核心 对 象 , 同时 点 Pi 到 ps 都 是 点 C: 直 
接 密 度 可 达 的 。 继 续 以 点 pi 至 ps 为 中 心 ， 计 算 各 自 e 领 域内 的 最 少 样本 量 ， 发 现 它们 仍然 为 核心 对 
象 。 再 以 点 ps 所 覆盖 的 e 领 域 为 例 ， 绘制 点 pe 的 se 领域 ,发现 其 不 满足 最 小 样本 量 为 4 的 条 件 ， 故 点 
pe 不 属于 核心 对 象 。 从 图 可 知 ， 以 点 G1 为 核心 的 点 ， 都 可 以 密度 可 达 簇 中 的 所 有 点 ， 故 这 些 点 之 间 
也 是 密度 相连 的 。 以 此 类 推 ， 不 断 地 向 外 “ 扩 长 ”， 直 到 获得 最 大 的 密度 相连 ， 便 形成 最 终 的 一 个 
簇 。 同 理 ， 再 以 被 重新 选择 的 样本 点 Cz 为 例 ， 利 用 “ 贪 吃 蛇 ”的 思路 不 停 地 迁 代 ， 寻 找 其 他 的 核心 
对 象 ， 直 到 能 够 构成 簇 的 最 大 密度 相连 。 从 图 中 的 结果 来 看 ,通过 密度 聚 类 算法 ,会 将 样本 点 聚 为 
两 个 簇 ， 并 且 点 N 为 离 群 点 ， 因 为 它 不 属于 任何 一 个 簇 。 
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在 Python 中 可 以 非常 方便 地 实现 密度 聚 类 算法 的 落地 , 读者 只 需要 调用 sklearn 子 模块 cluster 
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cluster.DBSCAN (eps=0.5, min samples=5, metric='euclidean', metric params=None, 
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eps: 用 于 设置 密度 聚 类 中 的 e 领 域 ， 即 半径 ， 默 认为 0.5。 
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metric params: 用 于 指定 metric 所 对 应 的 其 他 参数 值 。 
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ealgorithm: 在 计算 点 之 间距 离 的 过 程 中 ， 用 于 指定 搜寻 最 近邻 样本 点 的 算法 。 默 认为 auto',， 
表示 密度 聚 类 会 自动 选择 一 个 合适 的 搜寻 方法 。 如 果 为 'ball tree'， 则 表示 使 用 球 树 搜寻 最 近 
邻 。 如 果 为 kd_tree'， 则 表示 使 用 K-D 树 搜寻 最 近邻 。 如 果 为 'brute'， 则 表示 使 用 暴力 法 搜寻 
最 近邻 。 有 关 这 几 种 最 近邻 搜 寻 方 法 ， 可 以 参考 第 11 章 的 内 容 。 

@ leaf size: 当 参 数 algorithm 为 ball tree' 或 kd_tree' 时 ， 用 于 指定 树 的 叶子 节点 中 所 包含 的 最 多 
样本 量 ， 默 认为 30; 该 参数 会 影响 搜寻 树 的 构建 和 搜寻 最 近邻 的 速度 。 

@ p: 当 参 数 metric 为 闵可夫 斯 基 ("minkowski ) 距离 时 , p=1, 表示 计算 点 之 间 的 曼哈顿 距离 ; 
P=2， 表 示 计 算 点 之 间 的 欧 氏 距离 ， 该 参数 的 默认 值 为 2。 

@ n_jobs: 用 于 设置 密度 聚 类 算法 并 行 计算 所 需 的 CPU 数量 ， 默 认为 1， 表示 仅 使 用 1 个 CPU 
运行 算法 ， 即 不 使 用 并 行 运算 功能 。 


需要 说 明 的 是 ， 在 DBSCAN 类 中 ， 参 数 eps 和 min_samples 需要 同时 调 参 ， 即 通常 会 指定 几 
个 候选 值 ， 并 从 候选 值 中 挑选 出 合理 的 阔 值 。 在 参数 eps 固定 的 情况 下 ， 参 数 min_samples 越 大 ， 
所 形成 的 核心 对 象 就 越 少 ， 往 往 会 误 判 出 许多 异常 点 ， 聚 成 的 簇 数 目 也 会 增加 。 反 之 , 会 产生 大 量 
的 核心 对 象 ， 导 致 聚 成 的 簇 数 目 减少 。 在 参数 min_samples 固定 的 情况 下 ， 参 数 eps 越 大 ， 就 会 导 
致 越 多 的 点 落 入 到 e 领 域内 ， 进 而 使 核心 对 象 增多 ， 最 终 使 聚 成 的 簇 数 目 减 少 ， 反 之 ， 会 导致 核心 
对 象 大 量 减少 、 最 终 聚 成 的 簇 数 晶 增多。 在 参数 eps 和 min_samples 不 合理 的 情况 下 ， 敌 数目 的 增 
加 或 减少 往往 都 是 错误 的 。 例如， 应 该 聚 为 一 类 的 样本 由 于 簇 数 目的 增加 而 聚 为 多 类 ， 不 该 聚 为 一 
类 的 样本 由 于 簇 数 目的 减少 而 聚 为 一 类 。 


16.2 ”密度 聚 类 与 Kmeans 的 比较 


Kmeans 聚 类 的 短 板 是 无 法 对 非 球形 的 簇 进行 聚 类 ， 同 时 也 非常 容易 受到 极端 值 的 影响 ， 而 密 
度 聚 类 则 可 以 弥补 它 的 缺点 。 如 果 用 于 聚 类 的 原始 数据 集 为 类 球形 ， 那 么 密度 聚 类 和 Kmeans 聚 类 
的 效果 基本 一 致 。 接 下 来 通过 图 形 的 方式 对 比 两 种 算法 的 聚 类 效果 。 

首先 通过 随机 抽样 的 方式 形成 两 个 球形 簇 的 样本 集 , 然后 对 比 密度 聚 类 和 Kmeans 聚 类 算法 的 
聚 类 结构 ， 代 码 如 下 : 

# 导入 第 三 方 模块 


import pandas as pd 

import numpy as np 

from sklearn.datasets.samples generator import make blobs 
import matplotlib.pyplot as plt 

import seaborn as sns 


# 模拟 数据 集 

Xi,y = make blobs(n samples = 2000, centers = [[-1,-2], [1,3]], cluster std = [0.5,0.5], 
random state = 1234) 

# 将 模拟 得 到 的 数组 转换 为 数据 框 ， 用 于 绘图 

plot data = pd.DataFrame (np.column stack((X,y)), columns = ['xl1','x2','y']) 

# 设置 绘图 风格 

plt.style.use('ggplot') 

# 绘制 散 点 图 (用 不 同 的 形状 代表 不 同 的 簇 ) 
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如 上 


sns.lmplot ('x1l', 'x2', data = plot data, hue = 'y',markers = ['*','0'], 
fit reg = False, legend = False, scatter kws = {'color':'steelblue'}) 

# 显示 图 形 

plt.show() 


见 图 16-5。 


-二 





EE 


x1 


图 16-5 ”生成 两 个 球形 簇 的 样本 点 


如 图 16-5 所 示 ， 模 拟 两 个 类 球形 的 样本 簇 ， 接 下 来 使 用 密度 聚 类 和 Kmeans 聚 类 两 种 算法 对 
样本 集 进 行 聚 类 ， 查 看 两 种 算法 的 聚 类 效果 : 
# 导入 第 三 方 模块 


from sklearn import cluster 


# 构建 kmeans 聚 类 和 密度 聚 类 

kmeans = cluster.KMeans(n clusters=2, random state=1234) 
kmeans.fit (X) 

dbscan = cluster.DBSCAN(eps = 0.5, min samples = 10) 
dbscan.fit (X) 

# 将 kmeans 聚 类 和 密度 聚 类 的 能 标签 添加 到 数据 框 中 
Plot_data['kmeans_label'] = kmeans.labels_ 

plot data['dbscan label'] = dbscan.labels_ 


# 绘制 聚 类 效果 图 

# 设置 大 图 框 的 长 和 高 

plt.figure (figsize = (12,6)) 

# 设置 第 一 个 子 图 的 布局 

axl = plt.subplot2grid (shape = (1,2), loc = (0,0)) 

# 绘制 散 点 图 

axl.scatter (plot data.xl, plot data.x2, c¢ = plot data.kmeans label) 

# 设置 第 二 个 子 图 的 布局 

ax2 = plt.subplot2grid(shape = (1,2), loc = (0,1)) 

# 绘制 散 点 图 (为 了 使 kmeans 聚 类 和 密度 聚 类 的 效果 图 颜色 一 致 ， 通 过 序列 的 map“ 方 法 ”对 颜色 做 重 映射 ) 
ax2.scatter (plot data.xl, plot data.x2, c=plot data.dbscan label.map({-1:1,0:2,1:0})) 
# 显示 图 形 

Plt.show() 


见 图 16-6。 
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16-6 Kmeans 聚 类 与 密度 聚 类 效果 图 


如 图 16-6 所 示 ， 对 于 两 个 球形 秘 的 样本 点 而 言 ， 不 管 是 Kmeans 聚 类 ( 左 图 ) 还 是 密度 聚 类 
( 右 图 ) 都 能 够 很 好 地 将 样本 聚 为 两 个 徐 。 所 不 同 的 是 ,密度 聚 类 发 现 了 一 个 异常 点 (如 图 中 虚线 
圈 内 的 点 ) ， 它 不 属于 任何 一 个 徐 。 所以， 密度 聚 类 算法 既 可 以 在 球形 簇 得 到 很 好 的 效果 ， 又 可 以 
发 现 远离 簇 的 异常 点 。 

对 于 非 球 形 徐 的 样本 点 而 言 ， 再 来 看 看 两 个 算法 在 聚 类 过 程 中 的 差异 ， 样 本 数据 仍然 采用 随 
机 抽样 的 方式 ， 代 码 如 下 : 

# 导入 第 三 方 模块 


from sklearn.datasets.samples generator import make moons 


# 构造 非 球形 样本 点 

Xl,yl = make _ moons (n_ samples=2000，noise = 0.05, random state = 1234) 

# 构造 球形 样本 点 

X2,y2 = make_blobs(n_samples=1000，centers = [[3,3]], cluster std= 0.5, random state = 1234) 

# 将 y2 的 值 替 换 为 2 (为 了 避免 与 yl 的 值 冲突 ， 因 为 原始 Y1 和 y2 中 都 有 0 这 个 值 ) 

y2 = np.where(y2 == 0,2,0) 

# 将 模拟 得 到 的 数组 转换 为 数据 框 ， 用 于 绘图 

plot data = pd.DataFrame (np.row stack([np.column stack((X1,y1)), 
np.column_ stack( (X2,y2))]), columns = ['xl','x2','y']) 


# 绘制 散 点 图 (用 不 同 的 形状 代表 不 同 的 徐 ) 

sns.lmplot ('x1l', 'x2', data = plot data, hue = 'y',markers = ['^','o','>'], 
fit reg = False, legend = False) 

# 显示 图 形 

plt.show() 


见 图 16-7。 
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图 16-7 ”生成 球形 簇 和 非 球形 灸 的 样本 点 


如 图 16-7 所 示 ， 通 过 随机 数 生成 的 方式 构造 了 三 个 秘 的 样本 点 ， 其 中 左下 角 的 两 个 月 亮 形 样 
本 点 代表 两 个 非 球形 侯 ， 右 上 角 的 样本 点 为 球形 簇 。 对 于 这 样 的 数据 集 ， 通 过 密度 聚 类 和 Kmeans 
聚 类 算法 ， 是 否 可 以 得 到 与 原始 样本 点 一 致 的 簇 特征 ?执行 代码 如 下 : 

# 构建 kmeans 聚 类 和 密度 聚 类 


kmeans = cluster.KMeans(n_clusters=3, random state=1234) 
kmeans.fit (plot data[['x1','x2']]) 

dbscan = cluster.DBSCAN(eps = 0.3, min_samples = 5) 
dbscan.fit (plot data[['x1','x2']]) 

# 将 Kmeans 聚 类 和 密度 聚 类 的 入 标签 添加 到 数据 框 中 

plot data['kmeans label'] = kmeans.labels_ 
Plot_data['dbscan label'] = dbscan.labels_ 


# 绘制 聚 类 效果 图 

# 设置 大 图 框 的 长 和 高 

plt.figure (figsize = (12,6)) 

# 设置 第 一 个 子 图 的 布局 

axl = plt.subplot2grid(shape = (1,2), loc = (0,0)) 

# 绘制 散 点 图 

axl.scatter (plot data.xl, plot data.x2, c = plot data.kmeans label) 

# 设置 第 二 个 子 图 的 布局 

ax2 = plt.subplot2grid(shape = (1,2), loc = (0,1)) 

# 绘制 散 点 图 (为 了 使 kmeans 聚 类 和 密度 聚 类 的 效果 图 颜色 一 致 ， 通 过 序列 的 map“ 方 法 ”对 颜色 做 重 映射 ) 
ax2.scatter (plIot_data.xl，Plot_data.x2，c=plot_data.dbscan_label.map({-1:2,0:0,1:3,2:1})) 
# 显示 图 形 

plt.show() 


见 图 16-8。 
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16-8 Kmeans 聚 类 与 密度 聚 类 效果 图 
如 图 16-8 所 示 , 对 于 原始 三 个 簇 的 样本 点 而 言 ， 当 其 中 的 样本 簇 不 满足 球形 时 ，Kmeans 聚 类 
效果 就 非常 不 理想 ,会 将 原本 不 属于 一 类 的 样本 点 聚 为 一 类 (如 左 图 所 示 ) ， 而 对 应 的 密度 聚 类 就 
可 以 非常 轻松 地 将 非 球形 簇 准 确 地 划分 开 来 (如 右 图 所 示 )。 在 上 面 的 图 形 中, 再 次 验证 了 Kmeans 
聚 类 和 密度 聚 类 在 对 待 球形 徐 的 时 候 , 聚 类 效果 都 比较 出 色 。 右 图 中 的 四 个 点 仍然 是 通过 密度 聚 类 
算法 得 到 的 异常 点 ， 但 对 于 Kmeans 聚 类 来 说 ， 并 不 会 直接 给 出 异常 数据 。 


16.3 ”层次 聚 类 


层次 聚 类 的 实质 是 计算 各 簇 内 样本 点 之 间 的 相似 度 ， 并 通过 相似 度 的 结果 构建 凝聚 或 分 裂 的 
层次 树 。 凝 聚 树 是 一 种 自 底 向 上 的 造 树 过 程 ， 起 初 将 每 一 个 样本 当 作 一 个 类 , 然后 通过 计算 样本 间 
或 簇 间 的 距离 进行 样本 合并 , 最终 形成 一 个 包含 所 有 样本 的 大 簇 ; 分 裂 树 与 凝聚 树 恰好 相反 , 它 是 
自 项 向 下 的 造 树 过 程 ,起初 将 所 有 样本 点 聚 为 一 个 类 , 然后 利用 相似 度 的 方法 将 大 簇 进行 分 割 ， 直 
到 所 有 样本 为 一 个 类 为 止 。 有 关 凝 聚 树 和 分 裂 树 的 生长 过 程 可 以 参考 图 16-9 加 以 理解 。 





图 16-9 层次 聚 类 过 程 的 示意 图 
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如 图 16-9 所 示 ， 假 设 有 6 个 样本 点 需要 聚 类 ， 既 可 以 使 用 层次 聚 类 中 的 凝聚 过 程 ， 又 可 以 使 
用 分 裂 过 程 。 从 图 中 来 看 ， 凝 聚 过 程 是 从 左 到 右 的 聚 类 过 程 ， 即 从 每 个 样本 一 个 类 别 到 所 有 样本 一 
个 类 别 的 过 程 ， 而 分 裂 过 程 则 完全 相反 。 相 比 于 分 裂 过 程 ， 凝 聚 过 程 的 聚 类 更 容易 理解 和 实现 ， 所 
以 本 章 将 介绍 凝聚 过 程 的 聚 类 算法 。 

不 管 是 凝聚 过 程 还 是 分 裂 过 程 ， 都 需要 回答 两 个 问题 ， 一 个 是 样本 点 之 间 通 过 什么 指标 衡量 
它们 之 间 的 相似 性 ， 另 一 个 是 如 何 衡量 能 与 族 之 间 的 距离 。 对 于 第 一 个 问题 来 说 ， 与 Kmeans 算法 
一 致 , 就 是 通过 样本 点 之 间 的 欧 氏 距离 或 曼哈顿 距离 来 衡量 它们 的 相似 性 ,距离 越 近 , 相似 性 越 高 。 
第 二 个 问题 会 稍微 复杂 一 些 , 簇 与 簇 之 间 的 距离 不 像 点 与 点 之 间 的 距离 那样 可 以 直接 计算 , 而 是 要 
计算 所 有 簇 间 样 本 点 之 间 的 距离 , 然后 从 中 挑选 出 一 个 具有 代表 性 的 距离 值 表 示 簇 间距 离 。 接 下 来 
将 详细 介绍 有 关 簇 间距 离 的 几 种 度量 方法 。 





16.3.1 徐 间 的 距离 度量 


假设 在 聚 类 的 第 一 步 过 程 中 将 两 个 距离 最 近 的 样本 点 聚 为 一 个 徐 C;,， 对 于 其 他 数据 点 而 言 ， 
如 何 计算 点 与 簇 之 间 的 距离 ? 同 理 , 假设 在 某 步 中 生成 了 另 一 个 簇 C。， 又 该 如 何 度量 簇 C1 和 Cs 之 间 
的 距离 ? 在 sklearn 模块 中 ， 为 层次 聚 类 所 涉及 的 簇 间距 离 提 供 了 三 种 度量 方法 ， 分 别 是 最 小 距离 
法 、 最 大 距离 法 和 平均 距离 法 。 

1， 最 小 距离 法 

最 小 距离 法 是 指 以 所 有 簇 间 样 本 点 距离 的 最 小 值 作为 簇 间距 离 的 度量 ， 但 是 该 方法 非常 容易 
受到 极端 值 的 影响 。 例如 ,对 于 两 个 不 太 相似 的 簇 而 言 ， 可 能 由 于 某 个 极端 点 的 存在 , 会 使 簇 间距 
离 大 大 缩小 ， 进 而 导致 两 个 簇 合并 到 一 起 。 如 果 将 最 小 距离 法 形象 地 展现 出 来 ， 可 以 参考 图 16-10 
所 示 的 内 容 。 


C1 


C2 


C2 
Ga 
图 16-10 最 小 距离 法 度量 艇 间 下 离 的 示意 图 


如 图 16-10 所 示 , 在 两 个 簇 内 均 有 各 自 的 样本 点 , 簇 间距 离 的 度量 需要 计算 簇 C1 和 簇 C 间 任意 
两 点 之 间 的 距离 ,然后 以 最 小 距离 值 代表 簇 间距 离 。 最 小 距离 法 可 能 导致 聚 类 的 不 合理 ， 如 第 二 幅 
图 中 , 簇 C1 和 簇 C2 内 的 绝 大 多 数 样本 点 相 离 都 比较 远 , 但 由 于 个 别 异常 点 的 存在 ， 导致 两 个 不 该 聚 
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为 一 个 类 的 样本 点 聚 到 了 一 起 。 

2. 最 大 距离 法 

最 大 距离 法 是 指 以 所 有 簇 间 样 本 点 距离 的 最 大 值 作为 簇 间距 离 的 度量 ， 同 样 ， 该 方法 也 容易 
受到 极端 值 的 影响 . 例如 ,对 于 两 个 比较 相似 的 簇 而 言 ， 可 能 由 于 某 个 极端 点 的 存在 , 会 使 簇 间距 
离 过 分 放大 , 进而 导致 两 个 簇 无 法 聚 到 一 起 。 如 果 将 最 大 距离 法 形象 地 展现 出 来 , 可 以 参考 图 16-11 
所 示 的 内 容 。 


C2 
C1 

C2 
G 


图 16-11 最 大 距离 法 度量 簇 间距 离 的 示意 图 


如 图 16-11 所 示 , 如 果 以 最 大 距离 法 度量 两 个 簇 之 间 的 距离 ， 则 需要 使 用 簇 C1 和 簇 Cs 间 任 意 两 
点 之 间距 离 的 最 大 值 代表 簇 间距 离 。 同 样 该 方法 也 易 受 到 极端 值 的 影响 ， 如 第 二 幅 图 中 ， 簇 Cl 和 灸 
Cz 内 的 绝 大 多 数 样本 点 相 离 都 比较 近 ， 可 能 需要 聚 为 一 类 , 但 由 于 个 别 异常 点 的 存在 , 拉 大 了 两 个 
簇 之 间 的 距离 ， 导 致 两 个 簇 无 法 聚 为 一 类 。 

3. 平均 距离 法 

最 小 距离 法 和 最 大 距离 法 都 容易 受到 极端 值 的 影响 ， 可 以 使 用 平均 距离 法 对 如 上 两 种 方法 做 
折 中 处 理 , 即 以 所 有 徐闻 样本 点 距离 的 平均 值 作为 簇 间 距离 的 度量 。 如 果 将 平均 距离 法 形象 地 展现 
出 来 ， 可 以 参考 图 16-12 所 示 的 内 容 。 





图 16-12 平均 距离 法 度量 簇 间 叱 离 的 示意 图 
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如 图 16-12 所 示 ， 通过 计算 簇 闻 样 本 点 之 间 的 距离 , 然后 以 综合 的 均值 代替 簇 之 间 的 距离 ， 从 
而 得 到 一 个 相对 于 最 大 距离 法 和 最 小 距离 法 更 加 合理 的 聚 类 效果 。 当 然 , 并 非 说 平均 距离 法 就 一 定 
很 好 ， 如 果 簇 内 样本 点 的 分 布 都 比较 均匀 ， 那 么 这 三 种 方法 的 效果 几乎 是 一 样 的 。 


16.3.2 ”层次 聚 类 的 步骤 


在 理解 有 关 点 与 点 、 点 与 簇 和 簇 与 簇 之 间 的 距离 度量 标准 之 后 ， 就 需要 进一步 掌握 层次 聚 类 
算法 是 如 何 实现 样本 点 聚 类 的 。 本 小 节 将 详细 介绍 有 关 层 次 聚 类 算法 的 操作 步骤 , 并 通过 举例 说 明 
的 方式 加 强 对 聚 类 步骤 的 理解 。 层 次 聚 类 的 步骤 如 下 : 

(1) 将 数据 集中 的 每 个 样本 点 当 作 一 个 类 别 。 

(2) 计算 所 有 样本 点 之 间 的 两 两 距离 ， 并 从 中 挑选 出 最 小 距离 的 两 个 点 构成 一 个 簇 。 

(3) 继续 计算 剩余 样本 点 之 间 的 两 两 距离 和 点 与 徐 之 间 的 距离 ， 然 后 将 最 小 距离 的 点 或 簇 合 
并 到 一 起 。 

(4) 重复 步骤 (2) 和 (3) ， 直 到 满足 聚 类 的 个 数 或 其 他 设 定 的 条 件 ， 便 结束 算法 的 运行 。 

如 上 的 4 个 步骤 光 用 文字 说 明 可 能 理解 起 来 比较 困难 ， 接 下 来 通过 一 个 简单 的 例子 形象 地 说 
明 层 次 聚 类 法 的 整个 聚 类 过 程 。 

假设 有 5 个 样本 点 ， 分 别 是 pi(1,3)、Ppaz(2,.2)、Ps(0.0)、Pps(5,D) 和 Ps(5.2)， 接 下 来 按照 上 述 步 又 
对 这 5 个 点 进行 聚 类 。 首 先 需要 计算 这 5 个 样本 点 之 间 的 两 两 距离 ， 如 表 16-1 所 示 。 


表 16-1 两 两 样本 点 之 间 的 欧 氏 距离 





如 表 16-1 所 示 ， 通 过 样本 点 两 两 之 间距 离 的 计算 ， 发 现 ps 和 ps 之 间 的 距离 最 近 ， 故 首先 将 这 
两 个 样本 点 聚 为 一 类 C1。 接 下 来 需要 计算 剩余 点 pi、pz 和 ps 之 间 的 两 两 距离 以 及 点 和 簇 G 之 间 的 距 
离 ， 假 设 使 用 最 小 距离 法 度量 点 和 簇 以 及 簇 和 簇 之 间 的 距离 ， 如 表 16-2 所 示 。 


表 16-2 第 一 轮 聚 类 结果 

















pups) | V17 V9 V26 | 





如 表 16-2 所 示 ， 经 过 计算 ,发现 点 pi 与 点 p2 之 间 的 距离 最 近 ， 故 将 点 p1 和 ps 聚 为 一 类 Cs。 以 此 类 
推 ， 需 要 继续 计算 样本 点 ps 与 徐 C1 、Cz 之 间 的 距离 以 及 簇 Gi 与 簇 C2 之 间 的 距离 ， 如 表 16-3 所 示 。 
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表 16-3 第 二 轮 聚 类 结果 














如 表 16-3 所 示 ， 在 所 有 距离 中 ， 发 现 点 ps 与 簇 C2 之 间 的 距离 最 近 ， 距 离 为 J/2。 所 以 ， 可 以 将 
点 ps 与 簇 Cs 进行 合并 ， 构 成 更 大 的 簇 C3。 

假设 将 5 个 样本 点 聚 为 两 类 的 话 ， 如 上 的 聚 类 过 程 就 结束 了 ,最 终 形成 由 点 p1、ps 和 ps 构成 的 
类 以 及 包含 ps 和 ps 两 个 样本 点 的 类 。 按 照 聚 类 过 程 ， 可 以 将 其 可 视 化 为 如 图 16-13 所 示 。 





图 16-13 层次 聚 类 过 程 


如 图 16-13 所 示 , 起 初 的 5 个 样本 点 各 代表 一 个 类 , 然后 在 聚 类 过 程 中 将 样本 点 ps 和 ps 聚 为 一 
类 、pi 和 ps 聚 为 一 类 ， 再 将 样本 点 ps 与 样本 点 p1、p2 聚 为 一 类 ， 最 后 将 两 个 簇 归 为 一 个 大 徐 。 如 果 
需要 将 所 有 样本 点 聚 为 两 类 , 只 需要 在 最 右 侧 的 分 支 切 一 刀 , 得 到 左 侧 的 两 个 根 节点 就 是 对 应 的 两 
个 簇 。 

如 上 利用 的 是 最 小 距离 法 度量 点 与 簇 之 间 以 及 簇 与 徐 之 间 的 距离 ， 读 者 还 可 以 尝试 最 大 距离 
法 或 者 平均 距离 法 对 上 面 的 5 个 样本 点 进行 聚 类 。 


16.3.3 ”三 种 层次 聚 类 的 比较 


运用 Python 可 以 非常 方便 地 将 层次 聚 类 算法 落地 到 实际 工作 中 ， 读 者 只 需 导 入 sklearn 中 的 
cluster 子 模块 , 并 从 中 调用 AgglomerativeClustering 类 即 可 。 有 关 该 “类 ”的 语法 和 参数 含义 如 下 : 


cluster.AgglomerativeClustering(n clusters=2, affinity='euclidean', memory=None, 





connectivity=None, compute full tree='auto', linkage='ward') 

en clusters: 用 于 指定 样本 点 聚 类 的 个 数 ， 默 认为 2。 

® ”affinity: 用 于 指定 样本 间距 离 的 衡量 指标 ， 可 以 是 欧 氏 距离 、 曼 哈 顿 距离 、 余 弦 相 似 度 等 ， 
默认 为 'euclidean'; 如 果 参 数 linkage 为 ward'， 该 参数 只 能 设置 为 欧 氏 距离 。 
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@ ”memory: 是 否 指定 缓存 结果 的 输出 ， 默 认为 否 ; 如 果 该 参数 设置 为 一 个 路 径 ， 最 终 将 把 计算 
过 程 的 缓存 输出 到 指定 的 路 径 中 。 
connectivity: 用 于 指定 一 个 连接 矩阵 。 

@ compute full tree: 通常 情况 下 ， 当 聚 类 过 程 达 到 n_clusters 时 ， 算 法 就 会 停止 ， 如 果 该 参数 
设置 为 True， 则 表示 算法 将 生成 一 棵 完整 的 凝聚 树 。 

@ linkage: 用 于 指定 禾 间 距离 的 衡量 指标 ， 默 认为 'ward'， 表 示 最 小 距离 法 ; 如 果 为 'complete'， 
则 表示 使 用 最 大 距离 法 ; 如 果 为 'average'， 则 表示 使 用 平均 距离 法 。 


如 前 文 所 说 ， 层 次 聚 类 法 对 于 球形 簇 的 样本 点 会 有 更 佳 的 聚 类 效果 ， 接 下 来 将 随机 生成 两 个 
球形 簇 的 样本 点 ,并 利用 层次 聚 类 算法 对 它们 进行 聚 类 ,比较 三 种 簇 间 的 距离 指标 所 形成 聚 类 差异 。 
# 构造 两 个 球形 能 的 数据 样本 点 


X,y = make blobs (n_samples = 2000, centers = [[-1,0],[1,0.5]], cluster std = [0.2,0.45], 
random state = 1234) 

# 将 模拟 得 到 的 数组 转换 为 数据 框 ， 用 于 绘图 

plot data = pd.DataFrame (np.column stack((X,y)), columns = ['xl1','x2','y']) 

# 绘制 散 点 图 (用 不 同 的 形状 代表 不 同 的 簇 ) 

sns.lmplot ('xl', 'x2', data = plot data, hue = 'y',markers = ['<','o'], 

fit reg = False, legend = False) 
# 显示 图 形 
plt.show() 


见 图 16-14。 
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图 16-14 ”生成 两 个 球形 秘 


如 图 16-14 所 示 ， 两 种 不 同形 状 的 点 代表 了 两 个 不 同 的 簇 。 需要 注意 的 是 , 三 角形 的 样本 点 相 
对 更 加 集中 。 下 面 采用 层次 聚 类 法 对 生成 好 的 随机 样本 点 进行 聚 类 ， 代 码 如 下 : 


# 设置 大 图 框 的 长 和 高 

plt.figure (figsize = (16,5)) 

# 设置 第 一 个 子 图 的 布局 

axl = plt.subplot2grid(shape = (1,3), loc = (0,0)) 

# 层次 聚 类 -- 最 小 距离 法 

agnes min = cluster.AgglomerativeClustering(n clusters = 2, linkage='ward') 
agnes min.fit (X) 
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# 绘制 聚 类 效果 图 
axl.scatter (X[:,0], X[:,1], c=agnes min.labels ) 


# 设置 第 二 个 子 图 的 布局 

ax2 = plt.subplot2grid(shape = (1,3), loc = (0,1)) 

# 层次 聚 类 -- 最 大 距离 法 

agnes max = cluster.AgglomerativeClustering(n clusters = 2, linkage='complete') 
agnes max.fit(X) 

ax2.scatter (X[:,0], X[:,1], c=agnes max.labels ) 


# 设置 第 三 个 子 图 的 布局 

ax2 = plt.subplot2grid(shape = (1,3), loc = (0,2)) 

# 层次 聚 类 -- 平 均 距离 法 

agnes avg = cluster.AgglomerativeClustering(n clusters = 2, linkage='average') 
agnes avg.fit (X) 

plt.scatter (X[:,0], X[:,1], c=agnes avg.labels ) 




















plt.show() 

见 图 16-15。 
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图 16-15 三 种 层次 聚 类 的 效果 图 


如 图 16-15 所 示 ， 左 图 为 最 小 距离 法 形成 的 聚 类 效果 ; 中 图 为 最 大 距离 法 构成 的 聚 类 效果 ; 右 
图 为 平均 距离 法 完成 的 聚 类 效果 。 很 显然 ， 最 小 距离 法 与 平均 距离 法 的 聚 类 效果 完全 一 样 ， 并 且 相 
比 于 原始 样本 点 , 只 有 三 个 样本 点 被 错误 聚 类 ，, 即 图 中 虚线 框 内 所 包含 的 三 个 点 。 但 是 利用 最 大 距 
离 法 所 产生 的 聚 类 效果 要 明显 差 很 多 , 主要 是 由 于 模糊 地 带 (原始 数据 中 两 个 簇 交界 的 区 域 ) 的 异 
常 点 夸大 了 簇 之 间 的 距离 。 


16.4 ”密度 聚 类 与 层次 聚 类 的 应 用 














为 了 方便 对 比 密度 聚 类 与 层次 聚 类 的 效果 图 ， 这 里 以 我 国 31 个 省 份 的 人 口 出 生 率 和 死亡 率 两 
个 维度 的 数据 为 例 ， 对 其 进行 聚 类 分 析 。 首 先 ， 将 数据 读 入 Python 中 ， 并 绘制 出 生 率 和 死亡 率 数 
据 的 散 点 图 ， 代 码 如 下 : 

# 读 取 外 部 数据 


Province = pd.read excel(r'C:\Users\Administrator\Desktop\Province.xlsx') 
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Province.head() 

# 绘制 出 生 率 与 死亡 率 散 点 图 

plt.scatter (Province.Birth Rate, Province.Death Rate) 
# 添加 轴 标签 

plt.xlabel ('Birth Rate') 

plt.ylabel ('Death Rate') 


# 显示 图 形 
plt.show() 
见 图 16-16。 
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图 16-16 各 省 份 出 生 率 与 死亡 率 之 间 的 散 点 图 


如 图 16-16 所 示 ，31 个 点 分 别 代表 了 各 省 份 人 口 的 出 生 率 和 死亡 率 ， 通 过 肉眼 就 能 够 快速 发 
现 三 个 徐 , 即 图 中 的 虚线 框 ， 其 他 不 在 圈 内 的 点 可 能 就 是 异常 点 了 。 接 下 来 利用 密度 聚 类 对 该 数据 
集 进 行 验证 ， 代 码 如 下 : 

# 读 入 第 三 方 包 


from sklearn import preprocessing 


# 选取 建 模 的 变量 

Predictors = ['Birth Rate','Death Rate'] 

# 变量 的 标准 化 处 理 

X = preprocessing.scale(Province[predictors]) 
X = pd.DataFrame (X) 


# 构建 空 列表 ， 用 于 保存 不 同 参数 组 合 下 的 结果 
res = [] 
# 和 迭代 不 同 的 eps 值 
for eps in np.arange(0.001,1,0.05): 
# 和 迭代 不 同 的 min_samples 值 
for min_samples in range(2,10): 
dbscan = cluster.DBSCAN (eps = eps, min samples = min samples) 
# 模型 拟 合 
dbscan.fit (X) 
# 统计 各 参数 组 合 下 的 聚 类 个 数 〈-1 表示 异常 点 ) 
n clusters = len([i for i in set(dbscan.labels ) if i != -1]) 
# 异常 点 的 个 数 


outliners = np.sum(np.where (dbscan.labels_ == -1, 1,0)) 
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# 统计 每 个 能 的 样本 个 数 
stats = str(pd.Series([i for i in dbscan.labels if i != -1]).value_counts () .values) 
res.append ({'eps':eps, 'min samples' :min samples,'n clusters':n clusters, 
"outliners' :outliners, 'stats':stats}) 
# 将 迭代 后 的 结果 存储 到 数据 框 中 
df = pd.DataFrame (res) 


# 根据 条 件 筛选 合理 的 参数 组 合 


df.loc[df.n_clusters == 3, :] 
见 表 16-4。 


表 16-4 通过 迭代 方法 选择 合理 的 eps 和 min_samples 





eps |min_samples |n_clusters |outliners |stats 



































5 
3 3 
136 |0.851|2 3 2 24 3 2] 
144|0.901|2 3 1 124 4 2] 
152 |0.951 |2 3 1 24 4 2] 























针对 如 上 代码 做 两 点 解释 : 一 方面 ， 不 管 是 Kmeans 聚 类 、 密 度 聚 类 还 是 层次 聚 类 ， 读 者 都 需 


要 养 成 一 个 好 习惯 , 即 对 用 于 聚 类 的 原始 数据 做 标准 化 处 理 ， 这 样 可 以 避免 不 同 量 纲 的 影响 ; 另 一 
方面 ， 对 于 密度 聚 类 而 言 ， 通 常 都 需要 不 停 地 调试 参数 eps 和 min_samples， 因 为 该 算法 的 聚 类 效 
果 在 不 同 的 参数 组 合 下 会 有 很 大 的 差异 。 如 表 16-4 所 示 ， 如 果 需 要 将 数据 聚 为 3 类 ， 则 得 到 如 上 
几 种 参数 组 合 ， 这 里 不 妨 选择 eps 为 0.801、min_samples 为 3 的 参数 值 (因为 该 参数 组 合 下 的 异常 
点 个 数 比 较 合理 ) 。 


案 : 
析 ; 


个 3 


这 里 还 有 一 个 问题 需要 解决 ， 那 就 是 将 样本 点 聚 为 几 类 比较 合理 。 一 般 建议 选择 两 种 解决 方 
一 种 是 借助 于 第 15 章 所 介绍 的 轮廓 系数 法 ， 即 初步 使 用 Kmeans 算法 对 聚 类 个 数 做 探索 性 分 
另 一 种 是 采用 统计 学 中 的 主 成 分 分 析 法 ， 对 原始 的 多 变量 数据 进行 降 维 ， 绝 大 多 数 情 况 下 ， 两 
成 分 基本 可 以 覆盖 原始 数据 80% 左 右 的 信息 ， 从 而 可 以 根据 主 成 分 绘制 对 应 的 散 点 图 ， 并 通 





过 肉眼 发 现 数据 点 的 分 布 块 。 


接 下 来 , 利用 如 上 所 得 的 参数 组 合 ,构造 密度 聚 类 模型 ,实现 原始 数据 集 的 聚 类 ,代码 如 下 : 


# 利用 上 述 的 参数 组 合 值 ， 重 建 密度 聚 类 算法 

dbscan = cluster.DBSCAN(eps = 0.801, min samples = 3) 

# 模型 拟 合 

dbscan. fit (X) 

Province['dbscan label'] = dbscan.labels_ 

# 绘制 聚 类 的 效果 散 点 图 

sns.lmplot (x = 'Birth Rate', y = 'Death Rate', hue = 'dbscan label', data = Province, 
markers = ['*','d','^','0'], fit reg = False, legend = False) 
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# 添加 省 份 标签 
for x,y,text in zip (Province.Birth Rate,Province.Death Rate, Province.Province): 
plt.text (x+0.1,y-0.1,text, size = 8) 


# 添加 参考 线 

plt.hlines(y = 5.8, xmin = Province.Birth Rate.min(), xmax = Province.Birth Rate.max(), 
linestyles = '--', colors = 'red') 

plt.vlines(x = 10, ymin = Province.Death Rate.min(), ymax = Province.Death Rate.max(), 
linestyles = '--', colors = 'red') 

# 添加 轴 标 签 


plt.xlabel ('Birth Rate') 
plt.ylabel ('Death Rate') 


# 显示 图 形 
plt.show() 
见 图 16-17。 
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16-17 ”密度 聚 类 效果 图 


如 图 16-17 所 示 ， 三 角形 、 萎 形 和 贺 形 所 代表 的 点 即 为 三 个 不 同 的 簇 ， 五 角 星 所 代表 的 点 即 为 
异常 点 , 这 个 聚 类 效果 还 是 非常 不 错 的 , 对 比 建 模 之 前 的 结论 非常 吻合 。 从 图 16-17 可 知 , 以 北京 、 
天 津 、 上 海 为 代表 的 省 份 ， 属于 低 出 生 率 和 低 死亡 率 类 型 ; 广东 、 宁 夏 和 新 疆 三 个 省 份 属于 高 出 生 
率 和 低 死亡 率 类 型 ; 江苏 ` 四川、 湖北 为 代表 的 省 份 属于 高 出 生 率 和 高 死亡 率 类 型 。 四 个 异常 点 中 ， 
黑龙 江 与 辽宁 比较 相似 , 属于 低 出 生 率 和 高 死亡 率 类 型 ; 山东 省 属于 极 高 出 生 率 和 高 死亡 率 的 省 份 ; 
西藏 属于 高 出 生 率 和 低 死 亡 率 的 省 份 ， 但 它 与 广东 、 宁 夏 和 新 疆 更 为 相似 。 

同 理 ， 再 使 用 层次 聚 类 算法 ， 对 该 数据 集 进行 聚 类 ， 并 比较 其 与 密度 聚 类 之 间 的 差异 ， 代 码 
如 下 : 

# 利用 最 小 距离 法 构建 层次 聚 类 

agnes min = cluster.AgglomerativeClustering(n clusters = 3, linkage='ward') 

# 模型 拟 合 

agnes_min.fit (X) 

Province['agnes label'] = agnes min.labels_ 
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# 绘制 层次 聚 类 的 效果 散 点 图 

sns.lmplot(x = 'Birth Rate', y = 'Death Rate', hue = 'agnes label', data = Province, 
markers = ['d','^','o0'], fit reg = False, legend = False) 

# 添加 轴 标签 

Plt.xlabel ('Birth Rate') 

plt.ylabel ('Death Rate') 


# 显示 图 形 
plt.show() 
见 图 16-18。 
一 ~ 
+ Et 
0 一 、 4 4 9 41/ 
we 全 * ~-” 
| & 
NN 1 
65- ee + 
+ 
4 + 
EE LT 
虹 
扎 a 
名 a 
昌 s a Ro ns 
1 n 
a We 
50 - a 一 
. 
45- 
o 
. 
6 8 10 1 1 15 1 
Birth_Rate 


图 16-18 ”基于 最 小 距离 法 形成 的 层次 聚 类 效果 


如 图 16-18 所 示 ， 由 于 层次 聚 类 不 会 返回 异常 点 的 结果 ， 故 图 中 的 所 有 散 点 聚 成 了 三 个 簇 。 与 
密度 聚 类 相 比 ， 除 了 将 异常 点 划分 到 对 应 的 能 中 ， 其 他 点 均 被 正确 地 聚 类 。 

为 了 对 比 第 15 章 的 内 容 ， 这 里 利用 Kmeans 算法 对 该 数据 集 进 行 聚 类 ， 聚 类 之 前 利用 轮廓 系 
数 法 判断 合理 的 聚 类 个 数 ， 代 码 如 下 : 

# 导入 第 三 方 模块 


from sklearn import metricstrics 


# 构造 自 定义 函数 ， 用 于 绘制 不 同 k 值 和 对 应 轮廓 系数 的 折线 图 
def k silhouette(X, clusters): 
K = range (2,clusters+1) 
# 构建 空 列表 ， 用 于 存储 不 同 簇 数 下 的 轮廓 系数 
Sm ty 
for k in K: 
kmeans = Cluster.KMeans (n_clusters=k) 
kmeans .fit (X) 
labels = kmeans.labels_ 
# 调用 子 模块 metrics 中 的 silhouette_score 函数 ， 计 算 轮 廓 系数 


S.append(metrics.silhouette score(X, labels, metric='euclidean')) 


# 中 文 和 负 号 的 正常 显示 

Pplt.rcParams['font.sans-serif'] = ['Microsoft YaHei'] 
plt.rcParams['axes.unicode minus'] = False 

# 设置 绘图 风格 

plt.style.use('ggplot') 
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见 图 16-19。 





图 16-19 轮廓 系数 法 选择 合理 的 K 值 


如 图 16-19 所 示 ， 当 簇 的 个 数 为 3 时 ,轮廓 系数 达到 最 大 ,说 明 将 各 省 份 出 生 率 与 死亡 率 数据 
集聚 为 3 类 比较 合理 ， 这 也 恰好 验证 了 之 前 肉眼 所 观察 得 到 的 结论 。Kmeans 聚 类 代码 如 下 : 





见 图 16-20。 
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16-20 Kmeans 聚 类 效果 


如 图 16-20 所 示 ，Kmeans 聚 类 与 层次 聚 类 的 效果 完全 一 致 。 从 上 面 的 分 析 结 果 可 知 ， 该 数据 
集 仍 然 为 球形 分 布 的 数据 ， 因 为 密度 聚 类 、 层 次 聚 类 和 Kmeans 聚 类 的 效果 几乎 一 致 ， 所 不 同 的 是 
密度 聚 类 可 以 非常 方便 地 发 现 数据 中 的 异常 点 。 


16.5 ”本章 小 结 


本 章 介绍 了 另外 两 种 常用 的 无 监督 学 习 算 法 ， 即 密度 聚 类 和 层次 聚 类 。 密 度 聚 类 的 最 大 优点 
在 于 它 可 以 发 现任 意 形 状 的 样本 簇 ， 它 是 利用 领域 内 的 最 少 样本 量 定义 点 的 密度 ， 读 者 在 利用 该 
算法 对 样本 聚 类 时 需要 不 断 地 调整 参数 eps 和 min_samples。 层 次 聚 类 采用 “凝聚 树 ” 的 思想 对 样 
本 点 进行 划分 ， 在 sklearn 中 可 以 使 用 最 小 距离 法 、 最 大 距离 法 和 平均 距离 法 衡量 簇 之 间 的 距离 ， 
该 算法 的 操作 思想 非常 简单 ,但 是 不 太 适 合 大 样本 的 聚 类 , 而 且 当 数据 量 非常 大 时 , 它 的 运算 效率 
会 非常 低 ， 同 时 结果 不 一 定 准确 。 

本 章 详 细 讲 述 了 有 关 密 度 聚 类 和 层次 聚 类 的 实现 思想 和 步骤 ， 同 时 对 比 了 密度 聚 类 与 Kmeans 
聚 类 在 球形 与 非 球形 样本 点 上 的 聚 类 效果 ; 在 层次 聚 类 中 , 也 对 比 了 最 小 距离 法 、 最 大 距离 法 和 平 
均 距离 法 这 三 种 度量 簇 间距 离 的 聚 类 差异 ;最 后 将 密度 聚 类 和 层次 聚 类 算法 应 用 在 各 省 份 出 生 率 与 
死亡 率 的 数据 集中 , 进而 发 现 它们 之 间 的 一 些 细微 差异 。 通 过 本 章 内 容 的 学 习 , 读者 可 以 掌握 有 关 
密度 聚 类 和 层次 聚 类 的 知识 点 ， 进 而 将 其 应 用 到 实际 的 工作 中 ， 解 决 非 监督 型 的 数据 问题 。 

为 了 使 读者 掌握 有 关 本 章 内 容 所 涉及 的 函数 和 “方法 ”， 这 里 将 其 重新 梳理 一 下 ， 以 便 读者 
查阅 和 记忆 : 























Python 模块 。 | Python 函数 或 方法 函数 说 明 
| make blobs 用 于 生成 高 斯 分 布 样本 点 的 函数 
sklearn | make moons 用 于 生成 “月 亮 形 ”样本 点 的 函数 
| Kmeans 用 于 构造 K 均值 聚 类 的 “类 ?” 
| pBsCAN 用 于 构造 密度 聚 类 的 “类 ” 
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( 续 表 ) 

Python 模块 ”| Python 函数 或 方法 函数 说 明 

AgglomerativeClustering 用 于 构造 层次 聚 类 的 “类 ” 

fit 基于 “类 ”的 模型 拟 合 “方法 ” 
sklearn labels 返回 聚 类 结果 的 “ 簇 ” 标 签 

silhouette_ score 用 于 计算 轮廓 系数 的 函数 

Scale 用 于 数据 标准 化 的 函数 
seabom lmplot 用 于 绘制 散 点 拟 合 线 的 函数 

subplot2grid 用 于 设置 子 图 布局 的 函数 

scatter 用 于 绘制 散 点 图 的 函数 
matplotlib text 用 于 添加 图 形 文本 的 函数 

hlines/ vlines 用 于 添加 水 平和 垂直 参考 线 的 函数 

xlabel/ ylabel 用 于 添加 x 轴 和 y 轴 标 签 的 函数 

value_counts 用 于 统计 序列 值 的 频次 函数 
pandas read_ excel 用 于 读 取 Excel 文件 的 函数 

read_csv 用 于 读 取 文 本 文件 的 函数 

Sum 用 于 计算 数值 和 的 函数 

where 用 于 条 件 判断 的 函数 ， 类 似 于 Excel 中 的 让 函数 
numpy TOW_ stack 用 于 数组 的 纵向 合并 函数 

column_stack 用 于 数组 的 横向 合并 函数 

arange 用 于 生成 固定 步 长 的 一 维 数组 函数 





